主成分分析计算方法和步骤.doc
文本预览下载声明
主成分分析计算方法和步骤:
在对某一事物或现象进行实证研究时,为了充分反映被研究对象个体之间的差异, 研究者往往要考虑 增加测量指标,这样就会增加研究问题的负载程度。但由于各指标都 是对同一问题的反映,会造成信息的重叠,引起变量之间的共线性,因此,在多指标的数 据分析中,如何压缩指标个数、压缩后的指标能否充分 反映个体之间的差异,成为研究 者关心的问题。而主成分分析法可以很好地解决这一问题。
主成分分析的应用目 的可以简单地归结为: 数据的压缩、数据的解释。它常被用来寻 找和判断某种事物或现象的综合指标,并 且对综合指标所包含的信息给予适当的解释, 从而更加深刻地揭示事物的内在规律。
主成分分析的基本步骤分为: ①对原始指标进行标准化,以消除变量在数量极或量 纲上的影响;②根据标准化后的数据矩阵求出相关系数矩阵 R; ③求出 R 矩阵的特征 根和特征向量; ④确定主成分,结合专 业知识对各主成分所蕴含的信息给予适当的解 释;⑤合成主成分,得到综合评价值。
结合数据进行分析
本题分析的是全国各个省市高校绩效评价,利用全国2014年的相关统计数据(见附录),从相关的指标数据我们无法直接评价我国各省市的高等教育绩效,而通过表5-6的相关系数矩阵,可以看到许多的变量之间的相关性很高。如:招生人数与教职工人数之间具有较强的相关性,教育投入经费和招生人数也具有较强的相关性,教工人数与本科院校数之间的相关系数最高,到达了0.963,而各组成成分之间的相关性都很高,这也充分说明了主成分分析的必要性。
表5-6 相关系数矩阵
本科院校数
招生人数
教育经费投入
相关性
师生比
0.279
0.329
0.252
重点高校数
0.345
0.204
0.310
教工人数
0.963
0.954
0.896
本科院校数
1.000
0.938
0.881
招生人数
0.938
1.000
0.893
教育经费投入
0.881
0.893
1.000
师生比
重点高校数
教工人数
相关性
师生比
1.000
-0.218
0.208
重点高校数
-0.218
1.000
0.433
教工人数
0.208
0.433
1.000
本科院校数
0.279
0.345
0.963
招生人数
0.329
0.204
0.954
教育经费投入(元)
0.252
0.310
0.896
表5-7给出的是各主成分的方差贡献率和累计贡献率,我们选取主成分的标准有两个:第一,特征根大于1,因为,如果特征根小于1,说明该主成分的解释力度太弱,还比不上直接引入一个原始变量的平均解释力度大;第二,方差贡献率大于85%,如果这两个标准不能同时符合要求,则往往是因为选择的指标不合理或者样本容量太小,应继续调整。表5-7还显示,只有前2个特征根大于1,因此SPSS只提取了前两个主成分,而这两个主成分的方差贡献率达到了87.081%,因此选取前两个主成分已经能够很好地描述我国高等教育地区现状。
表5-7 方差贡献率以及累计贡献率
元件
起始特征值
提取平方和载入
合计
方差的贡献率 %
累加贡献率 %
合计
方差的贡献率 %
累加贡献率 %
1
3.983
66.390
66.390
3.983
66.390
66.390
2
1.241
20.691
87.081
1.241
20.691
87.081
3
0.571
9.508
96.589
.571
9.508
96.589
4
0.140
2.335
98.925
.140
2.335
98.925
5
0.052
0.869
99.794
.052
0.869
99.794
6
0.012
0.206
100.000
.012
0.206
100.000
表5-8为输出的主成分系数矩阵,可以说明各主成分在各变量上的载荷。由表5-8
可以看出,标准化后的第一主成分( 简称) 对所有变量都有载荷,且载荷绝对值几乎都在0.7以上, 因此可以说第一主成分是对人口结构的度量,代表了一个地区人口结构状况,可以称之为“综合因子”。在综合因子中,平均每户人口,农业与非农业人口比例, 人口的自然增长率比重即 人口自然增长各指标具有较强的作用,人与经济等其他指标所起的作用次之,男女比例也起一定作用。第二主成分( 简称 ) 对重点高校数和教工人数具有负载荷,其他变量具有正载荷,并且除 师生比和重点高校数载荷绝对值均小于0.2,有的甚至 接近于 0.1。因此,第二个主成分只是汇集了第一主成分遗漏的部分信息,我们称之为“辅助 因子”。
表5-8主成分矩阵
成分
师生比
0.317
0.799
重点高校数
0.396
-0.759
教工人数
0.984
-0.095
本科院校数
0.973
0.005
招生人数
0.964
0.131
教育经费投入
显示全部