数据及数据预处理讲解.ppt
文本预览下载声明
数据挖掘与商务智能Data Mining Business Intelligence第二章 数据及数据预处理;内容提纲;;数据对象;属性;属性类型;2.2数据质量;2.3数据预处理;2.3数据预处理主要任务;数据清洗;不完整(缺少)数据;如何处理丢失数据?;噪声数据;如何处理噪声数据?;数据清洗;数据集成;数据集成中的冗余信息的处理;相关分析;Χ2 (chi-square) test举例;相关分析数据(数字数据);视觉评估相关;相关(视为线性关系);协方差(数字数据);协方差:举例;数据缩减策略;降维;将数据映射到一个新的空间;小波变换是什么?;小波变换;小波变换;为什么小波变换?;主成分分析(PCA);主成分分析(步骤);属性子集选择;启发式搜索属性选择;创建属性(特征生成);Numerosity Reduction;参数数据还原:回归和对数线性模型;回归分析;回归分析和对数线性模型;直方图分析;聚类;采样;采样类型;取样:用或不用更??;采样:群集或分层抽样;数据压缩;数据压缩;数据转换;Discretization 离散;数据离散化方法;离散不使用类标签(分级与集群);离散使用类标签;概念层次生成;总结;2.4数据相似性和相异性度量;数据矩阵和相异矩阵;举例:数据矩阵和相异矩阵;总结;2.5数据统计汇总;测量集中趋势;对称VS偏斜数据,;测量数据的分散性;箱线图分析;可视化数据分散:3-D箱图;正态分布曲线的属性;图形显示的基本统计描述;相比盒形图直方图往往告诉更多;位数图;散点图;正面和负面的相关数据;不相关的数据;2.6数据可视化;几何技术;直接数据可视化;散点图矩阵;Landscapes;平行坐标;平行坐标数据集;基于图标的技术;Chernoff Faces;Stick Figures;分层技术;Dimensional Stacking;Worlds-within-Worlds;Tree-Map;文件系统的Tree-Map;Three-D Cone Trees;InfoCube;参考文献;Thank you
显示全部