重庆因子分析和K均值聚类分析.doc
数学与计算科学学院
多元统计分析
重庆市2010年综合经济分析
实验工程名称因子分析及K均值聚类分析
所属课程名称应用多元统计分析
实验类型综合
实验日期
班级数学0902班
学号200964100204
姓名张丽
成绩
摘要
多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法,而我们通常用SPSS软件来对所要分析的各项指标进行处理分析。
本文将对重庆市2010年的20个区县的10个经济指标进行分析。多元统计分析中包括判别分析、聚类分析、主成份分析、因子分析以及相应分析,在本文中,我们会利用K均值聚类分析和因子分析对重庆市各项指标进行分析处理。
K均值聚类分析是一种快速聚类法,以距离的远近亲疏为指标进行聚类的,并且产生指定类数的聚类结果。
因子分析是一种降维、简化数据的技术,它通过研究众多变量之间的内部依赖关系,探求观测数据中的根本结构,并用少数几个“抽象”的变量来表示其根本的数据结构。
在此,我们将会利用这两种分析方法对重庆市2010年各个地区的10项指标进行分析,找出影响重庆市经济开展的主要经济指标,及哪些地区的经济开展对重庆市整体的经济开展起着重要作用,并给出相关建议及意见,以到达重庆市经济快速开展的目标。
关键词:SPSS软件、K均值分析、因子分析。
因子分析
因子分析是主成分分析的推广和开展,它也是多元统计中处理降维的一种方法。因子分析是研究相关阵或协差阵的内部依赖关系,将多个变量综合为少数几个因子,再现原始变量与因子之间的关系。
因子分析的主要应用
(1).寻求根本结构,简化观测系统,将具有错综复杂关系的对象〔变量或样本〕综合为少数几个因子〔不可观测的随机变量〕,以再现因子与原始变量之间的内在联系
(2).用于分类,对变量或样本进行分类.
而因子分析中又包括R型和Q型因子分析
(1).R型从变量的相关阵出发,找出控制所有变量的几个公共因子,用以对变量或样本进行分类。
(2).Q型从样本的相相似据阵出发,找出控制所有样本的几个主要因素。
〔一〕R型因子分析的数学模型
R型因子分析中的公共因子是不可以直接观测但又客观存在的共同影响因素,每一个变量都可以表示成公共因子的线性函数与特殊因子之和,即
,
上式中的称为公共因子,称为的特殊因子。该模型可用矩阵表示为
即
这里
,,
且满足:
;
,即公共因子与特殊因子是不相关的;
,即各个公共因子不相关且方差为1;
,即各个特殊因子不相关,方差不要求相等。
模型中的称为因子“载荷”,是第个变量在第个因子上的负荷,如果把变量看成维空间中的一个点,那么表示它在坐标轴上的投影,因此矩阵A称为因子载荷矩阵。
Q型因子分析
类似的,Q型因子分析的数学模型可表示为
,
Q型因子分析与R型因子分析模型的差异表达在,表示的是n个样品。
这里应注意的几个问题为:
第一,变量X的协方差阵的分解式为
又
如果X为标准化了随机向量,那么就是相关矩阵,即
第二,因子载荷是不唯一的。这是因为对于的正交矩阵T,令,那么模型可以表示为
由于
所以任然满足模型的条件。
利用SPSS软件进行因子分析
本例中采取的是2010年重庆20个区和县的10个经济指标数据。
一、数据获得:
各区县人口〔万人〕
生产总值〔万元〕
农林牧渔业总产值〔万元〕
工业〔万元〕
建筑业总产值〔万元〕
渝中区
5530269
21050
185891
1760731
大渡口区
1772136
39360
2350851
545319
江北区
3913947
66521
4697134
948247
沙坪坝区
4195406
104395
6200570
1701130
九龙坡区
5895846
54525
8053908
2133722
南岸区
3512280
137970
5900188
1229556
北碚区
2323726
271523
3796938
780510
渝北区
5736350
4034262805174
巴南区
3087180
74621
4979018
1130986
万盛区
492747
4706
476675
77546
双桥区
400262
449808
948703
8618
涪陵区
4344866