多元统计分析建模分析.ppt
文本预览下载声明
QQ图的作用用于直观验证一组数据是否来自某个分布,或者验证某两组数据是否来自同一(族)分布。在教学和软件中常用的是检验数据是否来自于正态分布。 把已知分布的分位数标在纵轴上,样本分位数标在横轴上,从图形上可以了解到分布的信息。 图形是直线说明是正态分布。图形中有一段是直线,在两端存在弧度,说明峰度的情况。图形是曲线图,说明不对称。 如果Q-Q图是直线,当该直线成45度角并穿过原点时,说明分布与给定的正态分布完全一样。如果是成45度角但不穿过原点,说明均值与给定的正态分布不同,如果是直线但不是45度角,说明均值与方差都与给定的分布不同。如果Q-Q图中间部分是直线,但是右边在直线下面,左边在直线上面,说明分布的峰度大于3,反之说明峰度小于3. 解:首先输入数据 A=[data]; % data即表中数据 R=corrcoef(A); 得到的相关系数矩阵为: 由于r12=r21=1,表明指标x1,x2完全线性相关,故只需保留一个指标. A=A(:,2:6)./[ones(17,1)*std(A(:,2:6))]; % 消除量纲 [d,v]=eig(corrcoef(A)); % 计算特征值与特征向量 w=sum(d)/sum(sum(d)); % 计算贡献率 F=[A-ones(17,1)*mean(A)]*v(:,5); % 计算主成分得分 [F1,I1]=sort(F,descend); % I1给出各名次的序号 [F2,I2]=sort(I1); % I2给出各市排名 0.0011 (0.7518, -0.0803, 0.0719, -0.6434, -0.0965) 0.0053 0.0064 (-0.3510, 0.7779, 0.0275, -0.5153, 0.0738) 0.0322 0.0210 (0.1926, 0.3702, -0.0390, 0.3029, -0.8559) 0.1050 0.0495 (-0.2517, -0.2103, 0.9054,-0.1315,-0.2354) 0.2475 0.9220 (0.4595, 0.4552, 0.4158, 0.4600, 0.4441) 4.6100 贡献率 特征向量 特征值 表6. 特征值、特征向量及贡献率 2.459 3 芜 湖 6 0.932 阜 阳 15 -4.247 黄 山 -0.952 9 巢 湖 13 -3.271 蚌 埠 16 -4.658 安 庆 5.774 2 马鞍山 17 -5.063 宿 州 14 -3.628 池 州 -0.278 7 六 安 12 -3.054 亳 州 8 -0.763 铜 陵 -1.017 10 滁 州 4 1.636 淮 北 11 -2.647 宣 城 0.642 5 淮 南 1 18.67 合 肥 排 名 得分 地 区 得分 排 名 地 区 排 名 得分 地 区 表7. 各市第一主成分得分排名 练习:1. 根据软件输出结果,写出第一、第二主成分的公式;2. 将各地区分成三类,比较主成分排名与分类是否具有一致性? 3. 因子载荷矩阵 例4 得到第一主成分公式为 F1=0.4595x2+0.4552x3+0.4158x4+0.46x5+0.4441x6 我们称主成分Yi与指标Xj的相关系数 为Yi在Xj上的因子载荷量. 因子载荷用于解释第j个变量对第i个主成分的重要程度. 计算可得第一主成分与五个指标的载荷分别为: 0.9867 0.9773 0.8927 0.9876 0.9535 典型相关分析 三 四 在实际问题中,经常遇到研究两组随机变量之间的相关性.比如工厂管理人员需要了解原料的主要质量指标 与产品的主要质量指标之间的相关性,以便提高产品质量;医生要根据一组化验指标确定与一些疾病之间的关系;主教练排兵布阵要考虑自己的队员与对手之间的相生相克以便制定更好的对策,等等. 受主成分分析的启发,对每组变量分别构造线性组合,将两组变量之间的相关性转化为两个变量之间的相关性进行研究.典型相关分析示意图如图4. 7所示. 图4.7 典型相关分析示意图 1.总体典型变量的定义 设有两组随机变量 (XT,YT)T=(X1,X2,…,Xp,Y1,Y2,…,Yq)T的协方差矩阵为 ?11=cov(X), ?22=cov(Y), ?12= ?T21=cov(X,
显示全部