文档详情

数据挖掘与统计决策--学科概述聚类分析因子分析剖析.ppt

发布:2017-06-03约1.57万字共144页下载文档
文本预览下载声明
课程名称: 数据挖掘与统计决策 教 师: 廖 芹 Email : maqliao@ 课程简介 教学安排 教学安排 教学安排 一、数据挖掘学科概述 一、数据挖掘学科概述 一、数据挖掘学科概述——信息化发展与数据挖掘 应用案例——地下燃气管道安全状况评价系统主页面 主成分分析---应用案例: 应是Fk,这里的Zk用Fk表示 问题:如何分析“受消费者关注的手机功能”?哪三款手机最受关注(欢迎)?(含已使用和可能使用顾客范围) 主成分分析应用例(二) 补充 三、数据挖掘方法——主成分/因子分析 主成分分析应用例(二)---计算过程 补充 三、数据挖掘方法——主成分/因子分析 主成分分析应用例(二)---计算过程 补充 三、数据挖掘方法——主成分/因子分析 主成分分析应用例(二)---计算过程 补充 三、数据挖掘方法——主成分/因子分析 主成分分析应用例(二)---计算过程 补充 三、数据挖掘方法——主成分/因子分析 主成分分析应用例(二)---计算过程 补充 三、数据挖掘方法——主成分/因子分析 主成分分析应用例(二)---计算过程 补充 三、数据挖掘方法——主成分/因子分析 主成分分析应用例(二)---计算过程 补充 三、数据挖掘方法——主成分/因子分析 问题表述:分别对8个指标变量、107个样本(教材P10数据集)和聚类得到的20个样本进行主成分分析,找出1)贡献率大于85%的主分量,2)主要影响燃气安全评价的两个指标。采用Clementine结果如下: 主成分分析应用——地下燃气管网影响因素分析 三、数据挖掘方法——主成分/因子分析 可以看到,6个主成分对应的特征根分别是2.453,1.284,0.818,0.663,0.536,0.246。第一个主成分贡献率达到40.866%。选择前四个主成分,可以使贡献率达到86.976%。即原来的8维降为4维。由于八个指标中,有两个变量大部分是取值相同,所以实际只是从6维降到4维。 主成分分析应用——地下燃气管网影响因素分析 三、数据挖掘方法——主成分/因子分析 为了获取两个影响的主要指标,可以把模型的最大主成分提取数改为4,然后再进行旋转变换(采用Varimax方法,见下面因子分析),得到更直观的分析结果。 可以看到,由于漏电线密度和土壤腐蚀性是被所有因子(主成份)解析的最多的,影响评价的最重要的两个指标就是漏点线密度和土壤腐蚀性。 主成分分析应用——地下燃气管网影响因素分析 问题:主成分分析提取代表性变量与聚类方法有何区别? 问题:主成分提取后命名不容易,且主成分与每个原始变量的相关程度大小没能反映出来。如何解决这些问题? 因子分析:是主成分方法基础上产生的降维方法。对于多维原始变量中的每一变量,都采用公共因子与特殊因子的线性组合表示。可以更直接解释公共因子的命名和反映原始变量与公共因子的相关程度。因子分析比主成分方法更完善。 引入问题:设具有40门成绩的每一学生综合素质都可以用 德、智、体三个公共因子和特长这样的特殊因子表示,即第i个学生的综合素质为 Xi=ai1*F1+ai2*F2+ai3*F3+Ui 问题:1)公共因子F1、F2、F3如何从40门成绩中求出?如 何命名?如何取值? 2)每学生的综合素质线性组合系数ai1、ai2、ai3 如何求? 三、数据挖掘方法——主成分/因子分析 数理统计第六章P207-214 三、数据挖掘方法——主成分/因子分析 因子模型假设条件:1)原始变量xi是正态随机变量,且已标准化, 即 E(Xi)=0,D(Xi)=1, 2) 公共因子Fi相互独立,且是标准化的,即E(Fi)=0,D(Fi)=1, 3) 特殊因子Ui相互独立,且E(Ui)=0,D(Ui)= ?2, 一般记特殊因子U=?. 4) 公共因子Fi与特殊因子Uj相互独立. 1、因子数确定 P53 三、数据挖掘方法——主成分/因子分析 2、因子分析---因子载荷计算 P55 三、数据挖掘方法——主成分/因子分析 2、因子分析---因子载荷计算 P55 三、数据挖掘方法——主成分/因子分析 3、原始变量与公共因子的相关程度表示 期望与相关系数关系 三、数据挖掘方法——主成分/因子分析 P54 期望与相关系数关系 用因子载荷(线性组合系数)表示原始变量与公因子的相关程度。 为因子命名做准备。 4、因子载荷表示的方差共同度和贡献度 P
显示全部
相似文档