文档详情

数据预处理与清理数据.ppt

发布:2017-05-22约4.84千字共36页下载文档
文本预览下载声明
* 离散化:聚类分析方法 将数据按照“类内最大相似度,类间最小相似度的原则”对数据进行有效聚类 利用聚类的中心点来表示该类所包含的对象 数据聚类将非常有效,但是必须保证数据中没有噪音数据 * * 本节结论 数据的预处理无论对于数据仓库和数据挖掘都是非常重要的一个环节 数据预处理包括 数据清理 数据集成 数据归约和特征选取 数据的离散化 数据预处理涉及面广,现已建立了一系列的方法,但是目前仍然是一个非常活跃的研究领域 * * 简介:可视化数据挖掘 可视化: 使用计算机图形学创建可视化图像,帮助用户理解复杂,大规模数据 可视化数据挖掘: 使用可视化技术,从大规模数据集中发现隐含,有用知识的过程 可视化的目的 提供对大规模数据集定性的理解 查看数据中的模式,趋势,结构,不规则性,关系等 帮助寻找感兴趣的区域,为进一步定量分析提供合适的参数 为计算机得出的结果提供可视化的证明 * * 可视化与数据挖掘的结合 数据可视化 数据挖掘结果可视化 数据挖掘过程可视化 交互式可视化数据挖掘 * * 数据挖掘过程可视化 将数据挖掘各种处理过程用可视化的方式呈现给用户,可以看到: 数据是如何被提取的 是从哪个数据库或数据仓库提取的数据 被选择数据如何被清理,整合,处理和挖掘的 在数据挖掘中采用什么方法 数据被存储在哪里 * * 交互式可视化数据挖掘 使用可视化工具在数据挖掘过程中帮助用户作出更加合理的挖掘决定 更好的理解数据和样本 用户可以根据理解作出决定 用户可以根据领域知识作出决定 可视化结果使用户能够指导下次算法执行 * * 谢谢! * * * * 1.3 数据预处理与清理数据 第一章 数据挖掘概述 * 1 为什么需要数据预处理? 2 数据清洗 3 数据集成与转换 4 数据归约 5 数据离散化 * 1 为什么需要数据预处理 ? 在现实社会中,存在着大量的“脏”数据 不完整性(数据结构的设计人员、数据采集设备和数据录入人员) 缺少感兴趣的属性 感兴趣的属性缺少部分属性值 仅仅包含聚合数据,没有详细数据 噪音数据(采集数据的设备、数据录入人员、数据传输) 数据中包含错误的信息 存在着部分偏离期望值的孤立点 不一致性(数据结构的设计人员、数据录入人员) 数据结构的不一致性 Label的不一致性 数据值的不一致性 * 数据挖掘的数据源可能是多个互相独立的数据源 关系数据库 多维数据库(Data Cube) 文件、文档数据库 数据转换 为了数据挖掘的方便 海量数据的处理 数据归约(在获得相同或者相似结果的前提下) * 没有高质量的数据,就没有高质量的挖掘结果 高质量的决策必须基于高质量的数据基础上 数据仓库是在高质量数据上的集成 * 数据预处理的主要任务 数据清理 填入缺失数据 平滑噪音数据 确认和去除孤立点 解决不一致性 数据集成 多个数据库、Data Cube和文件系统的集成 数据转换 规范化、聚集等 数据归约 在可能获得相同或相似结果的前提下,对数据容量进行有效的缩减 数据离散化 对于一个特定连续属性,尤其是连续数字属性,可以把属性值划分成若干区间,以区间值来代替实际数据值,以减少属性值的个数. * 数据预处理的形式 数据清理 数据集成 数据转换 数据归约 * 使用属性的平均值填充空缺数值 简单方便、挖掘结果容易产生不精确的结果 使用与给定元组同一个类别的所有样本的平均值 分类非常重要,尤其是分类指标的选择 使用最有可能的值予以填充 利用回归、基于推导的使用贝叶斯形式化的方法的工具或者判定树归纳确定 利用属性之间的关系进行推断,保持了属性之间的联系 缺失数据的处理方法 * 噪音数据 噪音数据:一个度量(指标)变量中的随机错误或者偏差 主要原因 数据采集设备的错误 数据录入问题 数据传输问题 部分技术的限制 数据转换中的不一致 数据清理中所需要处理的其它问题 重复的记录 不完整的数据 不一致的数据 * 噪音数据的处理 分箱(Binning)的方法 聚类方法 检测并消除异常点 线性回归 对不符合回归的数据进行平滑处理 人机结合共同检测 由计算机检测可疑的点,然后由用户确认 * * 分箱方法 基本思想: 通过考察相邻数据的值,来平滑存储数据的值 基本步骤 首先,对数据进行排序,并分配到具有相同宽度/深度的不同的“箱子”中。 其次,通过箱子的平均值(Means)、中值(Median)、或者边界值等来进行平滑处理。 * 分箱(Binning) 方法举例 对数据进行排序: 4, 8, 9, 15, 21,
显示全部
相似文档