文档详情

重庆因子分析和K均值聚类分析.doc

发布:2025-01-09约7.12千字共15页下载文档
文本预览下载声明

数学与计算科学学院

多元统计分析

重庆市2010年综合经济分析

实验工程名称因子分析及K均值聚类分析

所属课程名称应用多元统计分析

实验类型综合

实验日期

班级数学0902班

学号200964100204

姓名张丽

成绩

摘要

多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法,而我们通常用SPSS软件来对所要分析的各项指标进行处理分析。

本文将对重庆市2010年的20个区县的10个经济指标进行分析。多元统计分析中包括判别分析、聚类分析、主成份分析、因子分析以及相应分析,在本文中,我们会利用K均值聚类分析和因子分析对重庆市各项指标进行分析处理。

K均值聚类分析是一种快速聚类法,以距离的远近亲疏为指标进行聚类的,并且产生指定类数的聚类结果。

因子分析是一种降维、简化数据的技术,它通过研究众多变量之间的内部依赖关系,探求观测数据中的根本结构,并用少数几个“抽象”的变量来表示其根本的数据结构。

在此,我们将会利用这两种分析方法对重庆市2010年各个地区的10项指标进行分析,找出影响重庆市经济开展的主要经济指标,及哪些地区的经济开展对重庆市整体的经济开展起着重要作用,并给出相关建议及意见,以到达重庆市经济快速开展的目标。

关键词:SPSS软件、K均值分析、因子分析。

因子分析

因子分析是主成分分析的推广和开展,它也是多元统计中处理降维的一种方法。因子分析是研究相关阵或协差阵的内部依赖关系,将多个变量综合为少数几个因子,再现原始变量与因子之间的关系。

因子分析的主要应用

(1).寻求根本结构,简化观测系统,将具有错综复杂关系的对象〔变量或样本〕综合为少数几个因子〔不可观测的随机变量〕,以再现因子与原始变量之间的内在联系

(2).用于分类,对变量或样本进行分类.

而因子分析中又包括R型和Q型因子分析

(1).R型从变量的相关阵出发,找出控制所有变量的几个公共因子,用以对变量或样本进行分类。

(2).Q型从样本的相相似据阵出发,找出控制所有样本的几个主要因素。

〔一〕R型因子分析的数学模型

R型因子分析中的公共因子是不可以直接观测但又客观存在的共同影响因素,每一个变量都可以表示成公共因子的线性函数与特殊因子之和,即

上式中的称为公共因子,称为的特殊因子。该模型可用矩阵表示为

这里

,,

且满足:

,即公共因子与特殊因子是不相关的;

,即各个公共因子不相关且方差为1;

,即各个特殊因子不相关,方差不要求相等。

模型中的称为因子“载荷”,是第个变量在第个因子上的负荷,如果把变量看成维空间中的一个点,那么表示它在坐标轴上的投影,因此矩阵A称为因子载荷矩阵。

Q型因子分析

类似的,Q型因子分析的数学模型可表示为

Q型因子分析与R型因子分析模型的差异表达在,表示的是n个样品。

这里应注意的几个问题为:

第一,变量X的协方差阵的分解式为

如果X为标准化了随机向量,那么就是相关矩阵,即

第二,因子载荷是不唯一的。这是因为对于的正交矩阵T,令,那么模型可以表示为

由于

所以任然满足模型的条件。

利用SPSS软件进行因子分析

本例中采取的是2010年重庆20个区和县的10个经济指标数据。

一、数据获得:

各区县人口〔万人〕

生产总值〔万元〕

农林牧渔业总产值〔万元〕

工业〔万元〕

建筑业总产值〔万元〕

渝中区

5530269

21050

185891

1760731

大渡口区

1772136

39360

2350851

545319

江北区

3913947

66521

4697134

948247

沙坪坝区

4195406

104395

6200570

1701130

九龙坡区

5895846

54525

8053908

2133722

南岸区

3512280

137970

5900188

1229556

北碚区

2323726

271523

3796938

780510

渝北区

5736350

4034262805174

巴南区

3087180

74621

4979018

1130986

万盛区

492747

4706

476675

77546

双桥区

400262

449808

948703

8618

涪陵区

4344866

显示全部
相似文档