spss-logistic回归分析.pdf
文本预览下载声明
实习六
Logistic回归分析
(一)Logistic回归分析的任务
影响因素分析
在流行病学研究中,logistic回归常用于疾病的危险
因素分析,logistic回归分析可以提供一个重要的指标:
OR。
(二)Logistic回归分析的基本原理
1.变量特点
因变量:二分类变量,若令因变量为y,则常用y =1表
示“发病”,y =0表示“不发病” (在病例对照研究中,分
别表示病例组和对照组)。
自变量:可以为分类变量,也可以为连续变量。
2.Logistic模型
P
Log β =+βx +β x ++β x
0 1 1 2 2 m m
1−P
P=P(y=1|x),为发病概率;1-P=P(y=0|x),为不发
病概率。β 为常数项,β ,β ….. β 分别为m个
0 1 2 m
自变量的回归系数。
模型估计方法:最大似然法(Maximum Likelihood
Method)。构造似然函数(Likelihood function )
L=∏P(y=1|x) P(y=0|x),通过迭代法估计一组参数
β ,β ,β ….. β )使L达到最大。
(0 1 2 m
3. 自变量的相对重要性分析
衡量变量相对重要性的指标
2 2
(1)Wald值:(β /SE(β )) ,近似χ 分布,用于检验自
i i
变量的显著性。
(2 )对自变量作显著性检验的概率P值。
当Wald值越大,P值越小时,自变量的影响就越大。
4. 自变量的筛选
与多元线性回归分析类似,有Forward法(实际上是逐
步向前法)、Backward法(默认方法为Enter,即所有
自变量一次全部进入方程)。
5.模型拟合的优良性指标
(1)拟合分类表(Classification Table)
根据Logistic回归模型,对样本重新判别分类,符合率越高,
模型拟合越好。注意:Logistic回归用于判别分类很粗劣,此
法仅作参考。
(2 )最大似然函数值L。
SPSS提供了-2Log Likelihood,此值越小越好(L →1)。
6.OR与RR
Logistic回归模型中,OR=EXP(β)。
当某种疾病的发病率或死亡率很低时,OR≈RR
(三)Logistic回归分析的适用条件
1.经典的Logistic回归分析,要求因变量为二分类变量。但是
其因变量也可以为多分类变量(SPSS中Multinomial Logistic
菜单)。
2.样本不能完全线性可分 (完全线性可分是指L=1,此时模型有
无限多组解,回归系数的估计是不确定的)
3.样本量不能太小。有研究表明,样本量不应小于200 。否则回
归系数的估计是有偏性的。
例:比较新疗法与旧疗法治疗某种疾病的疗效。现对
40例患者随机分组,分别接受新疗法和旧疗法治疗。
根据专业知识,患者的病情严重程度、年龄对疗效也
有影响。如何评价新旧疗法的疗效(见数据文件
logistic.sav)?(注:作为举例,本例样本量仅为40
例,由于样本量太小,Logistic回归的结论仅作为参
考)
变量说明:Y :治愈情况,1=治愈;0=未治愈;;
X1 :病情严重程度,0=不严重,1=严重;X2 :年龄。
X3 :治疗方法,0=新疗法,1=旧疗法。
二值
Logistic回归
因变量
协变量( 自变量)
注:此处将X1 、X3看作为连续变量;采用Enter
法。
OR的95%置信区间
显示全部