对数线性模型beta精要.ppt
文本预览下载声明
基础知识回顾—χ2检验 对数线性模型 Log-linear Model 表1 两所医院中不同产前护理量下的新生儿死亡率 χ2分布 定理:设 是n个独立的标准正态随机变量N(0,1),则其平方和 服从自由度为n的χ2分布。 推论:标准正态随机变量Z的平方服从自由度为1的χ2分布,即 验证: 两个率的比较问题 零假设与χ2统计量 H0:两总体(患病)率相等,即π1=π2= π0 H1:两总体(患病)率不等,即π1≠π2 α=0.05 在H0成立的条件下,总体率π0的估计值为 π0*=(a+c)/n=30/100=0.3 理论频数的计算 四格表各格子的理论频数T估计值为 Ta= (a+b) π0*= 40X0.3=12 Tb=(a+b)(1- π0*)=40X0.7=28 Tc=(c+d) π0*=60X0.3=18 Td==(c+d)(1- π0*)=60X0.7=42 实际频数和理论频数 χ2统计量及四格表专用公式 计算 统计结论 四格表问题的模型化 四格表问题的模型化 令 则 如果X、Y不独立,则要考虑其交互作用,有 表1 两所医院中不同产前护理量下的新生儿死亡率 χ2 分析结果 3维列联表饱和模型表达式 对数线性模型是层次模型 层次模型(hierarchical)的意思是: 当模型中包含了某几个变量的高级交互效应项时, 这几个变量的低级交互效应项与主效应项也一定包含在模型之中。 此原则也称“谱系规则”。 主效应模型和饱和模型 主效应(main effect)模型指各因素互相独立,无交互作用,也是最简单的模型。 饱和模型(saturated model)包括各级交互作用项,这种模型可以完全拟合数据,没有误差也没有自由度,所以无分析价值。 两两关联模型 如果所有二级交互效应皆为零 ,则饱和模型变为两两相关模型,记为 (XY,XZ,YZ) 该模型的意义是:对于任一个变量的每一水平,其它两变量间的联系强度与方向始终相同。 条件独立模型 如果不仅所有二级交互效应皆为零 ,而且X与Y的一级交互效应也皆为零 ,但X与Z、Y与Z的交互效应不为零 ,则为条件独立模型,记为 (XZ,YZ) 该模型的意义是:X与Z相关,Y与Z相关,在给定Z时,X与Y独立 部分独立模型 如果不仅所有二级交互效应皆为零,而且X与Z、Y与Z的一级交互效应也皆为零,但X与Y的交互效应不为零,称为部分独立模型 。记为 (Z,XY) 部分独立模型的意义: X与Z独立,Y与Z独立,但X与Y有关联。 拟合优度检验 检验统计量 自由度=列联表格子总数-独立参数总数 两个模型的比较:似然比检验 统计量ΔG2服从自由度为Δdf的χ2分布 模型残差分析 表2 表1资料各种可能的对数线性模型及其拟合优度检验 表4 模型残差分析 本例SAS参考程序1 data exp1; input x $ y $ z $ count @@; cards; A Less death 3 A Less survival 176 A More death 4 A More survival 293 B Less death 17 B Less survival 197 B More death 1 B More survival 23 ; run; 本例SAS参考程序2 proc genmod data=exp1; class x y z; model count=x|y x|z / link=log dist=poisson obstats residual; run; 关于最佳模型选择 从简单到复杂筛选 呈几何级数增加的参数 参数量受维数和变量取值数的影响 参数最少原则(需检验) 似然比检验 AIC信息准则(折中) AIC=-2ln(L)+2m 实用准则 Poisson回归 作业:使用对数线性模型分析 * * 4.000 23 1 more 7.944 197 17 less B 1.347 293 4 more 1.676 176 3 less A survival death Death Rate % Outcome (frequen
显示全部