文档详情

主成分与因子分析分解.pptx

发布：2020-02-23约3.9千字共37页下载文档

文本预览下载声明

主成分分析法与因子分析法主要内容主成分分析法因子分析法附：主成分分析法与因子分析法的区别主成分分析法（Principal Components Analysis,PCA）主成分分析法概述主成分分析的基本原理主成分分析的计算步骤一、主成分分析概述引子假定你是一个公司的财务经理，掌握了公司的所有数据，这包括众多的变量，比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。如果让你向上级或有关方面介绍公司状况，你能够把这些指标和数字都原封不动地摆出去吗？当然不能。汇报什么？发现在如此多的变量之中，有很多是相关的。人们希望能够找出它们的少数“代表”来对它们进行描述。需要把这种有很多变量的数据进行高度概括，用少数几个指标简单明了地把情况说清楚。什么是主成分分析法？主成分分析法（ Principal Components Analysis ）和因子分析法（Factor Analysis）就是把变量维数降低以便于描述、理解和分析的方法。主成分分析也称为主分量分析，是一种通过降维来简化数据结构的方法：如何把多个变量化为少数几个综合变量（综合指标），而这几个综合变量可以反映原来多个变量的大部分信息，所含的信息又互不重叠，即它们之间要相互独立，互不相关。这些综合变量就叫因子或主成分，它是不可观测的，即它不是具体的变量,只是几个指标的综合。在引入主成分分析之前，先看下面的例子。成绩数据53个学生的数学、物理、化学、语文、历史、英语的成绩如下表（部分）。从本例可能提出的问题能不能把这个数据表中的6个变量用一两个综合变量来表示呢？这一两个综合变量包含有多少原来的信息呢？事实上，以上问题在平时的研究中，也会经常遇到。它所涉及的问题可以推广到对企业、对学校、对区域进行分析、评价、排序和分类等。比如对n个样本进行综合评价，可选的描述样本特征的指标很多，而这些指标往往存在一定的相关性（既不完全独立，又不完全相关），这就给研究带来很大不便。若选指标太多，会增加分析问题的难度与复杂性，选指标太少，有可能会漏掉对样本影响较大的指标，影响结果的可靠性。这就需要我们在相关分析的基础上，采用主成分分析法找到几个新的相互独立的综合指标，达到既减少指标数量、又能区分样本间差异的目的。二、主成分分析的基本原理（一）主成分分析的几何解释（二）主成分分析的基本思想（一）主成分分析的几何解释例中数据点是六维的；即每个观测值是6维空间中的一个点。希望把6维空间用低维空间表示。先假定只有二维，即只有两个变量，语文成绩（x1）和数学成绩（x2），分别由横坐标和纵坐标所代表；每个学生都是二维坐标系中的一个点。因为在实际应用中，往往存在指标的量纲不同，所以在计算之前须先消除量纲的影响，而将原始数据标准化。为了实现样本数据的标准化，应求样本数据的平均和方差。对数据矩阵Y作标准化处理，即对每一个指标分量作标准化变换，变换公式为：其中，样本均值：样本标准差：原始变量经规格化后变为新变量，其均值为零，方差为1。对二维空间来讲n个标准化后的样本在二维空间的分布大体为一椭圆形，该椭圆有一个长轴和一个短轴。在短轴方向上数据变化很少，极端的情况下，短轴如退化成一点，长轴的方向可以完全解释这些点的变化，由二维到一维的降维就自然完成了。假定语文成绩（X1）和数学成绩（X2）分别为标准化后的分数，右图为其散点图，椭圆倾斜为45度。?????????????????????????????????????如果将坐标轴 X1 和 X2 旋转45o ，那么点在新坐标系中的坐标（Y1,Y2）与原坐标（X1,X2）有如下的关系： Y1和Y2均是X1 和 X2的线性组合在新坐标系中，可以发现：虽然散点图的形状没有改变，但新的随机变量 Y1 和 Y2 已经不再相关。而且大部分点沿 Y1 轴散开，在 Y1 轴方向的变异较大（即 Y1的方差较大），相对来说，在 Y2轴方向的变异较小（即 Y2 的方差较小）。?????????????????????????????????????在上面的例子中 Y1 和 Y2 就是原变量 X1和 X2的第一主成分和第二主成分。实际上第一主成分 Y1 就基本上反映了 X1 和X2 的主要信息，因为图中的各点在新坐标系中的 Y1 坐标基本上就代表了这些点的分布情况，因此可以选 Y1 为一个新的综合变量。当然如果再选 Y2也作为综合变量，那么 Y1 和 Y2 则反映了 X1 和 X2的全部信息。 (二) 主成分分析的基本思想假如对某一问题的研究涉及 p 个指标，记为X1，X2, …, Xp，由这 p 个随机变量构成的随机向量为X=(X1, X2, …, Xp)?，设 X

显示全部

相似文档