多元线性回归回归.ppt
残差分析模型适用条件的检验-独立性的检验通过LinearRegression过程的statistics按钮中的Durbin-Watson检验进行判断。若自变量数少于4个,统计量接近2,基本上可以肯定残差间相互独立。仍以例1为例,结果如下。第55页,课件共88页,创作于2023年2月残差分析模型适用条件的检验-方差齐性的检验第56页,课件共88页,创作于2023年2月残差分析模型适用条件的检验-正态性的检验绘制残差的直方图及PP图的复选框第57页,课件共88页,创作于2023年2月残差分析模型适用条件的检验-正态性的检验结果第58页,课件共88页,创作于2023年2月*二、Logistic回归一、概念Logistic回归是一种适用于应变量为分类值多因素概率型曲线模型。Y为二项分类:非条件Logistic回归——成组设计条件Logistic回归——配对设计Y为多分类:多分类Logistic回归第59页,课件共88页,创作于2023年2月*BinaryLogistic适用于应变量为二项分类的资料。应变量(Y)在一组自变量(X)的作用下所发生的结果赋值规则为:logistic回归模型:统计学中,把ln(P/Q)称为P的Logit转换或对数转换,即LogitP。由此得到的回归方程,称为Logistic回归方程。出现阳性的结果——1,其概率用P来表示;出现阴性的结果——0,其概率用Q或(1–P)来表示。第60页,课件共88页,创作于2023年2月*由上式可得:由样本估计而得的logistic回归模型:第61页,课件共88页,创作于2023年2月*将P/Q称为比数(odds,优势、比值);两个比数之比称为比数比OR(oddsratio,优势比、比值比)。第i个观察对象的发病概率比数(odds)为Pi/Qi,则:第l个观察对象的发病概率比数为Pl/Ql,则:第62页,课件共88页,创作于2023年2月*2、向前筛选法(Forwardselection):事先给定一个入选标准,即?(通常?=0.05),然后根据各因素偏回归平方和从大到小,依次逐个引入回归方程至无显著性自变量可以入选为止,因素一旦入选便始终保留在方程中而不被剔除。局限性:后续变量的引入可能会使先进入方程的变量变得不重要。第23页,课件共88页,创作于2023年2月*3、向后剔除法(Backwardelimination)首先建立全部自变量的全回归方程,给定剔除标准,根据各因素偏回归平方和从小到大,依次逐个将无显著性的自变量从回归方程中剔除。优点:考虑到了自变量的组合作用,选中的自变量数目一般会比前进法选中的多。缺点:当自变量数目较多或有某些自变量高度相关时,可能得不出正确的结果。第24页,课件共88页,创作于2023年2月*4、逐步法(Stepwise):给出入选标准(通常?1=0.05)和剔除标准(通常?2=0.10),每次选入一个在方程外且最具统计学意义的自变量后,就对原在方程中的自变量做剔除检验,这个过程逐步进行,直到没有有统计意义的自变量可以入选,也没有无统计学意义的自变量保留在方程中为止。实际工作中,多采用逐步法。用上述方法对上例资料进行分析。第25页,课件共88页,创作于2023年2月*(六)应用多元线性回归分析时需注意的事项(1)样本量要求:无精确的计算公式。据经验,样本量应是自变量数的5~10倍以上。(2)做预报时,只能在自变量X的观察值范围内进行;(3)在资料要求上,应变量Y服从正态分布;(4)注意资料的特异点(outlier);第26页,课件共88页,创作于2023年2月*(5)观测值重新量化问题二项分类资料:用X表示分类变量,阴性为0,阳性为1。有序多项分类资料:用一个X作为分类变量,以自然数0,1,2,…赋值。如将病情分为轻中重三类时,用X表示病情,赋值方法为:无序多项分类资料:或第27页,课件共88页,创作于2023年2月*上述以职员作为对比水平(基础水平)。哑变量X1、X2、X3分别代表了工人、农民、干部与职员相比的系数。哑变量代表的是同一个变量的不同取值,在分析时应当同时进入或移出方程。即使只有部分哑变量有统计学意义也是如此。第28页,课件共88页,创作于2023年2月*(7)自变量的联合作用分析