2017整理4章SAS系统的基本统计分析功能071111.ppt
文本预览下载声明
§4.4 回归分析 §4.4.1 回归分析概述 §4.4.2 线性回归及其实现 §4.4.3 非线性回归及其实现 §4.4.4 回归诊断 ★ 回归分析 指根据相关关系的数量表达式(回归方程式)与给定的自变量x,揭示因变量y在数量上的平均变化和求得因变量的预测值的统计分析方法 现象之间的相互联系,在许多情况下表现为一定的因果关系,将这些现象数量化则成为变量:其中一个或若干个起着影响作用的变量称为自变量,通常用X表示,它是引起另一现象变化的原因,是可以控制、给定的值;而受自变量影响的变量称为因变量,通常用Y表示,它是自变量变化的结果,是不确定的值。 数值变量 数值变量 非线性回归 NLIN 数值变量 分类变量 分类变量 Logistic回归Poisson回归 CATMOD 数值变量 分类变量 分类变量 Logistic回归 LOGISTIC 数值变量 分类变量 数值变量 协方差模型 一般线性模型 GLM 数值变量 数值变量 线性回归 REG 自变量 因变量 资料类型 回归类型 常用SAS过程 各类回归分析的SAS过程及对资料的要求 §4.4 回归分析 §4.4.1 回归分析概述 §4.4.2 线性回归及其实现 §4.4.3 非线性回归及其实现 §4.4.4 回归诊断 ★ ★ 线性回归分析 式中: 分别为因变量和自变量的第 次观测值; 为待估参数; 为残差(假设满足相互独立、正态分布、零均值、同方差)。 一元线性回归模型: 利用最小二乘法(LSE)估计未知参数 ,有: 即回归趋势方程为: 只有通过统计检验的回归方程才可以用来解释 之间的关系,并根据 的取值对相应的 进行预测; 检验回归方程拟合程度的统计量及参数主要有:用来检验回归系数显著性的 值及其概率 和标准差,用来检验回归方程整体拟合优度及显著性的 值及其概率 、判定系数 、标准差 、自由度 等。 线性回归分析 点预测 线性回归分析 单个预测值的置信区间(CLI) 预测值均值(回归均值)的置信区间(CLM) 预测(已知 预测 ) 线性回归分析 则多元线性回归模型为: 记 利用最小二乘法(LSE)估计未知参数 ,有: 为消除自变量个数及样本容量的大小对判定系数的影响,需使用调整后的判定系数 来反映自变量对因变量的解释程度; 在回归方程中,若遗漏了应加入的变量,将使所有的回归系数估计量产生偏差,若加入了不该加入的变量,又将加大所有回归系数估计量的方差,所以建立多元回归模型需要进行变量选择,即在所有独立变量中找出合适的子集,用以描述模型和进行预报。 建立多元线性回归模型应注意的问题: 线性回归分析 变量选择准则主要有 None 全部进入,不加选择 Forward 顺向选择法(逐个加入) Backward 反向淘汰法(全部加入后逐个剔除) Stepwise 逐步排除法(边进边出) cp Cp法(选最先满足 的模型) Rsquare 复相关系数平方法(对不同个数自变量 分别选择 最大的模型) Adjrsq 调整后的复相关系数平方法(选择 最 大的模型) 点预测 线性回归分析 单个预测值的置信区间(CLI) 预测(已知 ,预测 ) 预测值均值(回归均值)的置信区间(CLM) PROC REG DATA=数据集名 OPTIONS; VAR 变量名列; BY 变量名列; FREQ 变量名列; MODEL 因变量=自变量/OPTIONS; OUTPUT OUT=数据集名 关键字=新变量名列; RUN; REG过程的一般形式: REG过程可以计算回归函数的各种参数、显著性检验、方差分析、置信区间、残差分析等。 线性回归分析 PROC REG过程的常用选项有: SIMPLE 计算并打印各变量的基本描述性统计量; SXORR 打印各变量的相关行列式; NOPRINT 不打印输出; OUTEST=数据集名 指定回归值输出的数据集; COVOUT=数据集名 将所估计的协方差阵存入数据集; OUTSSCP=数据集名 指定相关矩阵输出的数据集。 线性回归分析 MODEL语句常用选项有: NOPRINT 不打印MODEL语句所界定的分析结果; ALL 打印MODEL语句所有分析结果。 1.关于报表打印的选项: MODEL语句用来设定回归模型中因变量、自变量及有关回归计算、估计、预测值和残差等内容。 2.界定参数估计值的选项: STB 打印标准
显示全部