文档详情

离群数据规则挖掘的决策树构造方法.doc

发布：2015-08-19约9.81千字共13页下载文档

文本预览下载声明

离群数据规则挖掘的决策树构造方法计算机工程与设计ComputerEngineeringandDesign2011,Vo1.32,No.51781 离群数据规则挖掘的决策树构造方法王瑞伟,李志华 (江南大学信息工程学院,江苏无锡214122) 摘要:提出了一种针对离群数据规则挖掘的决策树构造方法.通过给出一个平均致密度的新定义和对离群数据产生机制的深入分析,提出离群数据的致密度往往比正常样本数据高的新认识,指出离群数据本质上也是不平衡数据,基于此提出了一种自动标记离群数据的新算法,并进一步在该算法和C4.5算法部分功能的基础上提出了一种基于离群数据自动标记的模糊决策树构造方法.仿真实验结果表明,该方法具有高效的离群数据规则挖掘能力,能处理不平衡数据,优化决蓑树的结构,挖掘出更高信任度的规则,有一定的实用价值. 关键词:离群数据;平均致密度;覆盖;决策树;规则挖掘中图法分类号:TP301文献标识码:A文章编号:1000.7024(2011)05.1781.04 Decisiontreeconstructionmethodforoutliersrulemining WANGRui—wei,LIZhi—hua (SchoolofInformationandEngineering,JiangnanUniversity,Wuxi214122,China) Abstract:Anewdecisiontreeconstructionmethodforoutliersruleminingispresented.Bystudyingtheproducingmechanismof outliers,adefinitionofaveragedensenessfordatadistributionisgiven,thehigherdensityofoutliersthanthatofnormaldataispointed out,andtheoutliersisessentiallyimbalanceddata,too.Basedontheabove,allauto—taggingoutliersATOalgorithmisgiven.Further, anATO—basedfuzzydecisiontreegenerationmethodFDTMisproposed,whichconstructsthedecisiontreebytheformtreefunctionof C4.5finally.ExperimentalresultsdemonstratethattheFDTMoutperformstheC4.5attheaspectsoftheefficiencyofoutliersrulemining, theconfidenceoftheminingrules,thecapabilityoftacklingtheimbalanceddataandoptimizingtheconstructionofthedecisiontree. Keywords:outliers;averagedenseness;cover;decisiontree;rulemining 0引言离群点(outliers,又称孤立点)是指数据集合中不符合数据一般特性或一般模型的数据对象,这些数据对象通常远离其它数据对象,并且往往蕴含着一些特殊情况的信息n.多个离群点的集合,或称超过一定数量规模的离群点集合称为离群数据.离群数据产生的原因有两种:①在收集数据的过程中由于度量或执行错误产生的异常;②数据本身的变异产生的异常,后一种异常完全是由于潜在的不确定性机制造成的, 产生的离群数中往往蕴藏有丰富的,有价值的信息,并且具有特殊性,有助于对数据中潜在规律的挖掘.通常,离群数据往往偏离大部分数据,并且呈现小样本,致密性的特点,如果从模式识别的样本分布角度而言,相对于大量的正常数据,其本质上就是不平衡数据.如网络安全事件中的违法数据,海量手机短信息中不文明信息,Web页面中不健康网页内容等,这些数据大量存在,并且相对于正常网络数据而言是典型的离群数据.当前有关离群数据的数据挖掘的研究n.已有很多, 但如果要进一步获取更加有效的模式作为证据,如对于网络安全取证,则必然要对网络数据中大量存在的离群数据进行规则挖掘,这是当前学术界一个比较热门的研究领域. 目前,主要从两方面来研究规则的生成:①通过应用决策分类算法生成决策树,然后根据决策树抽取规则,其缺点是: 只能在单个结点上检验单一属性,当学习的对象数目较多时, 单变量决策的表达很复杂,决策树的复杂度比较高而分类精度却不高;②通过粗糙集等理论,构造决策表,根据决策表生成规则,其缺点是:

显示全部

相似文档