文档详情

数据挖掘-数据预处理.ppt

发布:2017-04-25约小于1千字共47页下载文档
文本预览下载声明
数据挖掘与知识发现 (复杂数据对象的数据挖掘与知识发现);数据挖掘的困难所在;预处理在知识发现中所占份量;预处理;预处理的基本功能 ;4 数据挖掘的预处理 ;4.1 数据选择;4.1 数据集成;4.1 数据集成——冗余;4.2数据清理;4.2 数据清理;4.2 数据清理;4.2 数据清理;4 数据挖掘的预处理 ;4.4 数据规约;4.4 数据规约;4.4 数据规约——基于粗糙集理论的约简法;4.4 数据规约——基于粗糙集理论的约简法;4.4 数据规约——基于粗糙集理论的约简法;4.4 数据规约——基于粗糙集理论的约简法;基于概念树的数据预处理方法是一种归纳方法,其实是数据库中元组合并的处理过程,其基本思路如下 : 首先,一个属性的具体的值被该属性的概念树中的父概念所代替,然后对相同元组进行合并,构成更宏观的元组,并计算宏元组所覆盖的元组数目仍然很大,那么用该属性的概念树中父概念去替代或者根据???一个属性进行概念树的提升操作,最后行成覆盖面更广、量更少的宏元组。 ;可以采用统计分析中的一些算法来进行特征属性的选取,比如主成分分析、逐步回归分析。这些方法的共同特征是用少量的特征元组去描述的原始数据。;主成分分析的思想是:对于给定的输入数据矩阵X,计算其相关系数矩阵R=X·X,取与R中最大的几个特征值相应的特征向量作为主成分。其中数据准则是希望每次取得一个综合变量的方差,在原变量的全部方差(或剩下的全部方差)中所占的比例最大。;主成分方法的特点是将描述某一事物的多个变量压缩成描述该事物的少数几个合变量或称主成分(通常用原变量的线性组合表示),旨在用新的少数几个综合变量代替原始变量,并使这 种替代所蒙受的损失最少。主成分分析法具有变差最优性。信息损失最小性。相关最优性和回归最优性,使它得以成为多元降维的重要工具之一。 ;4 数据挖掘的预处理 ;数据变换;简单变换;空间变换;4 数据挖掘的预处理 ;连续属性离散化;;连续属性离散化?;连续属性离散化?;;4.2.1 语言场及语言值结构;;;;;;;;;;;;离散化的问题
显示全部
相似文档