应用统计学主成分分析.ppt
文本预览下载声明
二、由相关矩阵求解主成分 当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。 量纲对于主成分分析的影响及消除方法——对数据进行标准化处理,以使每一个变量的均值为0,方差为1。 数据标准化后,总体的协方差矩阵与总体的相关系数相等. 主成分与原始变量的关系式为: 例:企业经济效益综合分析。用5个经济指标进行考核。用相关系数矩阵法求解主成分。其中计算出的相关系数矩阵为: (1)计算其特征值: (2)各特征值的累计方差贡献率为: (3)从以上方差贡献率看,k=2时主成分个数较为合适。 对应的特征向量为: (4)建立第一和第二主成分: 从相关系数矩阵出发求解主成分的步骤: 1、标准化各观测变量数据。 2、求解标准化各观测变量的相关系数矩阵。 3、求解相关系数矩阵的特征根。 4、求解各特征根对应的特征向量。 三、主成分性质 1,主成分的协方差阵为对角阵 2、P个随机变量的总方差为协方差矩阵?的所有特征根之和 说明主成分分析把P个随机变量的总方差分解成为P个不相关的随机变量的方差之和。 当进行相关系数矩阵求解主成分,各变量标准化后,则p个主成分总的方差之和等于p。 3、贡献率: 第i个主成分的方差在全部方差中所占比重 ,称为贡献率,反映了原来P个指标多大的信息,有多大的综合能力。 4、累积贡献率: 前k个主成分共有多大的综合能力,用这k个主成分的方差和在全部方差中所占比重 来描述,称为累积贡献率。 5.原始变量与主成分之间的相关系数(因子负荷量) 和 的相关密切程度与对应线性组合系数向量成正比,与主成分标准差成正比,与原始变量 的标准差成反比。 当原始变量标准化后,标准化变量与主成分的相关关系: 样本主成分求解 变量X 样本协方差为总体协方差的无偏估计 相关矩阵R为总体相关矩阵的估计 若X已标准化,则可用相关矩阵代替协方差矩阵 λ为相关矩阵的特征值 将R的特征根依大小顺序排列 其对应的特征向量记为U1,U2,…,Up 说明y1有最大方差,y2有次大方差。。。 说明新的综合指标即主成分彼此不相关 样本主成分的性质: 1、第K个主成分yk的系数向量是第K个特征根λk所对应的标准化特征向量。 2、第K个主成分的方差为第K个特征根λk,且任意两个主成分都是不相关的,也就是y1,y2,…,yp的样本协方差矩阵是对角矩阵 3、样本主成分的总方差等于原变量样本的总方差,为p 4、第K个样本主成分与第j个变量样本之间的相关系数为: (因子载荷量) 主成分个数的确定以及主成分分析的实现 一、主成分个数的选取 1.累积贡献率达到85%以上 2.根据特征根的变化来确定 数据标准化情况下: 3.作碎石图 描述特征值的贡献 三、主成分分析的步骤 1、根据研究问题选取初始分析变量; 2、根据初始变量特性判断用协方差矩阵求主成分还是用相关矩阵求主成分;(量纲不一致则将原始数据进行标准化处理用相关矩阵求主成分) 3、求协方差矩阵或相关矩阵的特征根与相应的特征向量; 4、判断是否存在明显的多重共线性,若存在,返回至第1步; 5、得到主成分表达式并确定主成分个数,依据方差贡献率选取主成分; 6、对主成分作出合理解释,并结合其他研究法对研究问题进行深入分析。 三、SPSS操作: 1、analyze-description statistic-description-save standardized as variables(若需要数据标准化,则进行该操作) 2、analyze-data reduction-factor 3、指定参与分析的变量 4、运行factor 过程 重庆交通大学管理学院 * * 重庆交通大学管理学院 * * 主成分分析 主成分分析:将原来较多的指标简化为少数几个新的综合指标的多元统计方法。 主成分:由原始指标综合形成的几个新指标。依据主成分所含信息量的大小成为第一主成分,第二主成分等等。 主成分与原始变量间的关系: 1、主成分保留了原始变量绝大多数信息。 2、主成分的个数大大少于原始变量的数目。 3、各个主成分之间互不相关。 4、每个主成分都是原始变量的线性组合。 主成分分析的运用: 1、对一组内部相关的变量作简化的描述 2、用来削减回归分析或群集分析(Cluster)中变量的数目
显示全部