职业病发病及死亡回归分析模型.doc
文本预览下载声明
工业部门职业病发病回归分析模型
摘 要 本文讨论了工业部门职业病发病回归分析问题。
针对问题一,将各种疾病例数作为自变量,总病例数作为因变量,通过主成份分析法提取主成份,利用多元线性及非线性回归分析方法建立了主成份的多元线性及非线性回归方程。首先,运用SPSS软件对原始数据进行标准化处理,根据累积贡献率及特征根计算出主成份的个数,并通过计算相关矩阵的特征向量,求出主成份关于标准化自变量的表达式 ;其次,利用MATLAB计算出回归系数从而得到因变量关于主成份的线性回归方程,分析相关矩阵的特征向量可知第一主成份与第三主成份之间的交互作用对因变量有较大影响,因此建立了因变量关于主成份的非线性回归方程;最后,采用偏回归系数标准化法与偏回归系数的F检验法分析回归方程,可知工业部门职业病的高发病有尘肺、慢性中毒、急性中毒、生物因素致病、职业性眼病病、职业性耳鼻喉病。
针对问题二,由问题一的结论可知工业部门职业病主要致病因素是人体长期暴露在含有一定浓度有毒物质和有害物质的工作环境中,为了减少工业部门职业病的发病与死亡人数,工业部门应当从职业病致病的主要因素着手,在工作时对工人进行相关防护,由此为工业部门提出合理的行业劳保建议。
关键词 回归分析 主成份分析法 行业劳保
一、问题重述
工业部门职业病是大家所熟悉的现象,据调查显示工业部门职业病的发病及死亡由多种因素引起。现有工业部门职业病共计11519例,其中包括尘肺急性中毒尘肺时,所提取的主成份可保留原始变量的全部信息。
四、符号表示
符号 变量说明 原始数据自变量() 原始数据因变量 标准化处理后数据自变量() 标准化处理后数据因变量 主成份() 回归方程系数() 类型()
五、模型建立与求解
5.1主成份提取
1、运用SPSS软件对原始数据进行标准化处理,即可得到自变量的相关矩阵(见附录表2)。
2、求相关矩阵的特征根()、方差贡献率及累积贡献率(见表3)。
表3 解释的总方差
成份 初始特征值 提取平方和载入 旋转平方和载入 合计 方差的贡献率 % 累积贡献率 % 合计 方差的贡献率 % 累积贡献率 % 合计 方差的贡献率 % 累积贡献率 % 1 3.5940 35.9400 35.9400 3.5940 35.9400 35.9400 2.1040 21.0450 21.0450 2 1.9280 19.2770 55.2170 1.280 19.2770 55.2170 2.0550 20.5540 41.5990 3 1.2320 12.3200 67.5370 1.2320 12.3200 67.5370 1.9450 19.4470 61.0460 4 1.0600 10.6010 78.1380 1.0600 10.6010 78.1380 1.3750 13.7520 74.7970 5 1.0050 10.0470 88.1850 1.0050 10.0470 88.1850 1.3390 13.3880 88.1850 6 0.4910 4.9100 93.0950 7 0.3800 3.8040 96.8990 8 0.1880 1.8820 98.7810 9 0.0860 0.8560 99.6370 10 0.0360 0.3630 100.0000 提取方法:主成份分析。
因为,且其累积贡献率为,所以提取出五个主成份。
3、计算特征根所对应的特征向量
首先运用SPSS软件求出五个主成份的成份矩阵(见附录表4),再由成份矩阵中每一列的数依次除以(),可得特征根所对应的特征向量(),即:
4、写出主成分的表达式
5.2 建立主成份回归方程
建立如下的回归模型:
(1)
其中,为回归系数,影响的其他因素作用都包含在随机误差中,如果模型选择得合适,应大致服从均值为的正态分布。
直接利用MATLAB统计工具箱中的命令regress对表4(见附录)求解,得到模型(1)的回归系数估计值及其置信区间(置信水平),检验统计量的结果(见表5)。
表5 模型(1)的计算结果
参数 参数估计值 参数置信区间
由的置信区间为包含零点可知表5中的值不可靠,所以将回归模型改为: (2)
再次利用MATLAB统计工具箱中的命令regress对表4(见附录)求解,得到模型(2)的回归系数估计值
显示全部