采用Logistic 回归分析时需注意的问题.pdf
文本预览下载声明
230 中国循环杂志 2014 年 3 月 第 29 卷 第 3 期(总第 189 期)Chinese Circulation Journal,March,2014,Vol. 29 No.3(Serial No.189)
学习园地
采用 Logistic 回归分析时需注意的问题
吴振强,王杨,李卫
关键词 Logistic;回归; 样本量
Logistic 回归常用于分析二分类因变量(如存活 性别的胃癌发生危险不同,通过 Logistic 回归可以求
[1]
和死亡、患病和未患病等)与多个自变量的关系 。 出危险度的具体数值,例如 1.7,这样就表示,男性
比较常用的情形是分析危险因素与是否发生某疾病 发生胃癌的风险是女性的 1.7 倍。这里要注意估计的
相关联。例如,若探讨胃癌的危险因素,可以选择 方向问题,以女性作为参照,男性患胃癌的 OR 是
两组人群,一组是胃癌组,一组是非胃癌组,两组 1.7。如果以男性作为参照,算出的 OR 将会是 0.588
人群有不同的临床表现和生活方式等,因变量就为 (1/1.7),表示女性发生胃癌的风险是男性的 0.588 倍,
有或无胃癌,即“是”或“否”,为二分类变量,自变 或者说,是男性的 58.8%。撇开了参照组,相对危险
量包括年龄、性别、饮食习惯、是否幽门螺杆菌感 度就没有意义了。
染等。自变量既可以是连续变量,也可以为分类变量。 Logistic 回归在医学研究中广泛使用的原因之一,
通过 Logistic 回归分析,就可以大致了解胃癌的危险 就是模型直接给出具有临床实际意义的 OR 值,很
因素。 大程度上方便了结果的解读与推广。
Logistic 回归与多元线性回归有很多相同之处, 3 样本量问题
但最大的区别就在于他们的因变量不同。多元线性 通常回归模型都需要建立在大样本的基础上。
回归的因变量为连续变量;Logistic 回归的因变量为二 在进行 Logistic 回归前,应该考虑当前的样本量是否
分类变量或多分类变量,但二分类变量更常用,也 充足?根据模拟研究,在使用 Logistic 回归时,事件
[1]
更加容易解释 。 (死亡或患病)个数至少应该是自变量个数的 10 倍以
尽管 Logistic 回归在医学研究领域中应用广泛, 上(这一条也适于 Logostic 其他的应用情况) [2]。例如,
但在应用中存在很多问题。本文将结合笔者自身的 观察胃癌的危险因素,比如有性别、年龄和饮食习
经验,对使用 Logistic 回归常见的问题进行讨论。 惯等 9 个研究因素,那就至少需要 90 例胃癌。另一
1 Logistic 回归的用法 个比较常见的样本量原则是,观测的数量应该至少
一般而言,Logistic 回归有两大用途,首先是 是自变量数的 20~30 倍,同样如果有 9 个自变量,那
寻找危险因素,如上文的例子,找出与胃癌相关的 么总体样本最好能够达到 180 例以上。建议在进行
危险因素;其次是用于预测,我们可以根据建立的 Logistic 回归前,结合上述两个原则,从总样本和事
Logistic 回归模型,预测在不同的自变量情况下,发 件数两个角度共同对模型样本量进行考虑。
生某病或某种情况的概率(包括风险评分的建立)。 4 Logistic 回归中的自变量形式
2
显示全部