文档详情

系统工程模型和模型化.ppt

发布:2025-02-23约1.46万字共10页下载文档
文本预览下载声明

1、基本原理定义:记x1,x2,…,xP为原变量指标,z1,z2,…,zm(m≤p)为新变量指标假定有n个样本,每个样本共有p个变量,构成一个n×p阶的数据矩阵。当p较大时,在p维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理。系数Lij确定的原则①zi与zj(i≠j;i,j=1,2,…,m)相互无关;②z1是x1,x2,…,xP的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,…,xP的所有线性组合中方差最大者;……zm是与z1,z2,……,zm-1都不相关的x1,x2,…xP,的所有线性组合中方差最大者。新变量指标z1,z2…,zm称为原变量指标x1,x2,…,xP的第一,第二,…,第m主成分。说明:Lij其实就是X相关矩阵的m个较大的特征值所对应的特征向量.2、计算步骤解特征方程,分别求出对应于特征值的特征向量.[E,D]=eig(A)P70计算主成分及累计贡献率一般取累计贡献率达85--95%的特征值所对应的前n个主成分。计算主成分载荷及得分计算特征值与特征向量计算相关系数矩阵Rrij(i,j=1,2,…,p)为原变量xi与xj的相关系数,rij=rji,其计算公式为:3、举例计算步骤将表中数据作标准化处理,并计算相关系数矩阵;由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率P69对于特征值=4.6610,=2.0890,=1.0430分别求出其特征向量e1,e2,e3,再用公式计算各变量x1,x2,…,x9在主成分z1,z2,z3上的载荷(计算机实现)(4)求主成分主成分是根据载荷阵,对原指标求线性组合Fi,基于相关系数矩阵还是基于协方差矩阵做主成分分析。当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。01选择几个主成分。主成分分析的目的是简化变量,一般情况下主成分的个数应该小于原始变量的个数。关于保留几个主成分,应该权衡主成分个数和保留的信息。02如何解释主成分所包含的经济意义。034、讨论的问题主成分分析能降低所研究的数据空间的维数。即用研究m维的Y空间代替p维的X空间(m<p),而低维的Y空间代替高维的x空间所损失的信息很少。有时可通过因子负荷aij的结构,弄清X变量间的某些关系。多维数据的一种图形表示方法。根据主成分的得分,画出n个样品在二维平面上的分布况,由图形可直观地看出各样品在主分量中的地位。由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析。用主成分分析筛选回归变量。5、应用场合程序(样本按照行排列,变量是列排列)主成分x=[];stdr=std(x);%求各变量的标准差[n,m]=size(x);sddata=x./stdr(ones(n,1),:);%标准化变换[p,princ,egenvalue]=princomp(sddata);%调用主成分分析p3=p(:,1:3);%输出前三个主成分系数sc=princ(:,1:3);%输出前三个主成分得分egenvalue%输出特征根per=100*egenvalue/sum(egenvalue)%输出各个主成分贡献率%根据前三个主成分得分,使用贡献率加权得到FF=per(1,1)*princ(:,1)+per(2,1)*princ(:,2)+per(3,1)*princ(:,3)6、思考主成分分析与因子分析的差异参见材料中的实证研究中的例子。SPSS样品聚类在统计学中又称为Q型聚类。变量聚类在统计学又称为R型聚类。聚类分析:一个数据集合分组成几个聚类01距离:用于对样品的聚类。常用欧氏距离,在求距离前,需把指标进行标准化。相似系数:常用于对变量的聚类。一般采用相关系数。注意:在聚类分析中反映样品或变量间关系亲疏程度的统计量称为聚类统计量,常用的聚类统计量分为距离和相似系数两种。02聚类分析基本思想:首先定义样品间距离及类与类之间的距离;开始时每个样品各看成一类,将距离最近的两类合并;重新计算新类与其它类的距离,再将距离最近的两类合并;再计算新类与其它类的距离,……,这样一步步的进行下去,每一步减少一类,直至所有的样品都合并成一类为止。A整个聚类过程可作成聚类图或树状谱(treediagram),按树状谱作出适当的分类。类与类之间的距离有各种不同的定义方法。B系统聚类最短距离法(singlelinkage):类与类之间距离定义为两类间样品距离的最小值。最长距离法(completelinkage):类与类之

显示全部
相似文档