文档详情

数据挖掘概念、技术--数据预处理.ppt

发布：2017-06-30约1.64千字共27页下载文档

文本预览下载声明

数据预处理 3.1 为什么需要预处理数据不完整，含噪声，不一致数据清理通过填写空缺值，平滑噪声数据，识别删除孤立点，并解决不一致来清理数据。脏数据形成的原因滥用缩写词数据输入错误数据中的内嵌控制信息不同的惯用语（如：ASAP对“at first chance”) 重复记录丢失值拼写变化不同的计量单位过时的编码数据清理的重要性脏数据的普遍存在，使得在大型数据库中维护数据的正确性和一致性成为一个及其困难的任务。垃圾进、垃圾出数据清理处理内容格式标准化异常数据清除错误纠正重复数据的清除数据规约数据集的压缩表示，但是能和原始数据集达到相同或基本相同的分析结果主要策略: 数据聚集维规约数据压缩数据规约 3.2 数据清理空缺值忽略元组人工填写空缺值使用固定值使用属性平均值使用最有可能值噪声数据如何平滑数据，去掉噪声数据平滑技术分箱聚类计算机和人工检查相结合回归分箱箱的深度：表示不同的箱里有相同个数的数据。箱的宽度：每个箱值的取值区间是个常数。平滑方法: 按箱平均值平滑按箱中值平滑按箱边界值平滑聚类每个簇中的数据用其中心值代替忽略孤立点计算机和人工检查相结合先通过聚类等方法找出孤立点。这些孤立点可能包含有用的信息。人工再审查这些孤立点回归通过构造函数来符合数据变化的趋势，这样可以用一个变量预测另一个变量。线形回归多线形回归 3.3 数据集成和变换数据集成将多个数据源中的数据结合起来存放在一个一直得数据存贮中。实体识别实体和模式的匹配冗余：某个属性可以由别的属性推出。相关分析相关性rA,B . rA,B0,正相关。A随B的值得增大而增大 rA,B0,正相关。AB无关 rA,B0,正相关。A随B的值得增大而减少重复同一数据存储多次数据值冲突的检测和处理数据变换平滑聚集数据概化规范化属性构造(特征构造) 最小最大规范化小数定标规范化属性构造由给定的属性构造和添加新的属性，以帮助提高精度和对高维数据结构的理解数据规约数据立方体聚集寻找感兴趣的维度进行再聚集维规约删除不相关的属性（维）来减少数据量。属性子集选择找出最小属性集合，使得数据类的概率分布尽可能地接近使用所有属性的原分布如何选取？贪心算法逐步向前选择逐步后向删除向前选择和后向删除相结合判定树归纳数据压缩有损，无损小波变换将数据向量D转换成为数值上不同的小波系数的向量D’. 对D’进行剪裁，保留小波系数最强的部分。数据压缩 cont. 主要成分分析数值规约回归和对数线形模型线形回归对数线形模型直方图等宽等深 V-最优 maxDiff 数值规约 cont 聚类多维索引树：对于给定的数据集合，索引树动态的划分多维空间。选样简单选择n个样本，不放回简单选择n个样本，放回聚类选样分层选样离散化和概念分层离散化技术用来减少给定连续属性的个数通常是递归的。大量时间花在排序上。对于给定的数值属性，概念分层定义了该属性的一个离散化的值。数值数据离散化和概念分层生成分箱直方图分析聚类分析基于熵的离散化通过自然划分分段 3-4-5规则如果一个区间最高有效位上包括3 6 9 个不同的值，划分为3个等宽区间。 7个不同值，按2-3-3划分为3个区间最高位包含2，4，8个不同值，划分为4个等宽区间最高位包含1 ，5，10个不同值，划分为5个等宽区间最高分层一般在第5个百分位到第95个百分位上进行分类数据的概念分层的生成分类数据是离散数据。一个分类属性可能有有限个不同的值。方法由用户和专家在模式级显式的说明属性的部分序通过显式的数据分组说明分层结构的一部分说明属性集，但不说明他们的偏序只说明部分的属性集 * * *

显示全部

相似文档