卫生统计学:Logistic回归分析.ppt
文本预览下载声明
第十五章 第二节 Logistic回归分析 一、前言 在疗效评价,发病因素研究中,应变量为分类指标 有效 治愈 发生 阳性 Y 无效 死亡 未发生 阴性 线性回归分析: 正态随机变量 多重线性回归难以解决的问题 医学数据的复杂、多样性 连续型和离散型数据 医学研究中疾病的复杂性 一种疾病可能有多种致病因素或与多种危险因素有关 疾病转归的影响因素也可能多种多样 临床治疗结局的综合性 解决方法 简单的: 固定其他因素,研究有影响的一两个因素; 按1~2个因素组成的层进行分层分析(层内和综合分析)。 多因素: 寻找合适的统计模型 二、 Logistic回归模型 Logistic回归 二分类 多分类 条件Logistic回归 非条件Logistic回归 概述 1967年Truelt J,Connifield J和Kannel W在《Journal of Chronic Disease》上发表了冠心病危险因素的研究,较早地将Logistic回归用于医学研究。 Logistic回归分析解决的问题 医学研究中, 有关生存与死亡, 发病与未发病, 阴性与阳性等结果的产生可能与病人的年龄、性别、生活习惯、体质、遗传等许多因素中哪些有关?如何找出其中哪些因素对结果有影响? 设:暴露组 发生率 p1 /未发生率(1-p1) 对照组 发生率 p0 /未发生率(1-p0) p表示暴露因素X时个体发病的概率,则发病的概率 与未发病的概率 1- p之比称为优势(odds). 暴露组 odds p1 / (1-p1) 对照组 odds p0 / (1-p0) Logit变换 也称对数单位转换 logit P= 病例组 与对照组 的 优势比 (odds retio ,OR) Logistic回归分析模型 进行logit变换 Logistic回归模型是一种概率模型, 它是以疾病,死亡等结果发生的概率为因变量, 影响疾病发生的因素为自变量建立回归模型。 它特别适用于因变量为二项, 多项分类的资料。 在临床医学中多用于鉴别诊断, 评价治疗措施的好坏及分析与疾病预后有关的因素等。 Logistic回归分析模型 三、参数估计 最大似然估计法 (Maximum likehood estimate) 似然函数:L=∏Pi 对数似然函数: lnL=∑(ln P)=ln P1+ln P2+…+ln Pn 非线性迭代方法-Newton-Raphson法 logistic 回归系数的意义 OR=e β lnOR= β Logistic回归中的常数项(b0)表示在不接触任何潜在危险/保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。 Logistic回归系数( bi )表示,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即OR的对数值。 实例分析 实例分析 四、参数检验 1.似然比检验(likehood ratio test) 通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为G G=-2(ln Lp-ln Lk) n较大时, G近似服从自由度为待检验因素个数的?2分布。 比分检验(score test) 以未包含某个或几个变量的模型计算保留模型中参数的估计值,并假设新增参数为零,计算似然函数的一价偏导数及信息距阵,两者相乘便得比分检验的统计量S 。n 较大时, S近似服从自由度为待检因素个数的?2分布。 Wald检验( wald test) 即广义的t检验,统计量为u u服从正态分布,即为标准正态离差。 以上三种方法中,似然比检验最可靠,比分检验一般与它相一致,但两者计算量均较大;而Wald检验未考虑各因素间的综合作用,在因素间有共线性存在时,结果不像其它两者可靠。 分析因素xi为等级变量时,如以最小或最大等级作参考组,并按等级顺序依次取为0,1,2,…。此时, e(bi) 表示xi增加一个等级时的优势比, e(k* bi)表示xi增加k个等级时的优势比。 分析因素xi为连续性变量时, e(bi)表示xi增加一个计量单位时的优势比。 六、 Logistic回归分析方法 分析思想与多重线性回归分析相同 筛选变量的方法: 前进法 后退法
显示全部