基于信息熵降维的混合属性数据流聚类算法.pdf
文本预览下载声明
第37卷 第 19期 计 算 机 工 程 2011年 10月
、,01.37 NO.19 ComputerEngineering October20l1
· 软件技术与数据库 · 文章编号:10H0 428(2o11)l9—o8 3 文献标识码。A 中圈分类号:TP311
基于信息熵降维的混合属性数据流聚类算法
谭建建 ,郑洪源,丁秋林
(南京航空航天大学信息科学与技术学院,南京 210016)
摘 要:现有的数据流聚类算法无法处理高维混合属性的数据流。针对该问题,对 HPStream算法的脱机聚类和联机聚类过程进行改进,
利用频度矩阵处理名词属性,通过基于信息熵的名词属性选择方法降低数据维度。实验结果表明,该算法能有效处理混合属性和维度较高
的数据集,与HPStream算法相比,聚类精度有 5%~15%的提高。
关健诃:数据流挖掘;混合属性 ;频度矩阵;信息熵;降维
ClusteringAlgorithm forDataStream withHeter0gene0usAttributes
Based0nInofrmati0nEntropyDimensionReducti0n
TANJian-jian,ZHENGHong-yuan,DINGQiu-lin
(CollegeofInformationScienceandTechnology,NanjingUniversityofAeronauticsandAstronautics,Nanjing210016,China)
[Abstract]Existeddatastreamclusteringalgorithmscannotdealwiththedatastreamwithhigh—dimensionalheterogeneousattributes.Toaddress
theproblem ,thispaperimprovestheoff-lineprocessandtheon—lineprocessofHPStream algorithm,which usesrfequencymatrixtohandlethe
categoricalattributesandusestheprincipleofinformationentropytohnadletheproblem ofhighdimension.Experimentalresultsshow thatthe
algorithm canmanipulateheterogeneousattributesandhigh—dimensionaldatasets.ComparedwiththeHPStream algorithm,itsclusteringprecision
isincreasedby5% ~15%.
[Keywords]datastreammining;heterogeneousattributes;frequencymatrix;informationentropy;dimensionreduction
DOh 10.3969j/.issn.1000—3428.2011.19.026
1 概述 3 概要数据结构设计和名词属性降维
近年来,由于计算机技术和通信技术的发展,产生了海 本文用到的基本概念和公式如下:
量的实时数据流,例如工业 自动控制中的控制信息流、传感 定义 l(数据流)数据流由一系列无限的、按照时间顺序
器网络中的实时信息流。如何从这些数据流中获得有用的知 到达 的多维实例组成 ,即实例 x,,x 一,X …在 时刻
识成为新的研究热点。其中,数据流模型上的聚类技术作为 , , … , rm,…顺序 到达 。X =[ IB 】=[ ,2,…, I ,
数据挖掘的重要方法得到了广泛的研究。本文针对混合属性
显示全部