文档详情

《基于密度和中心点的分布式数据流聚类算法的研究论文》-毕业论文.doc

发布:2018-11-11约5万字共65页下载文档
文本预览下载声明
五邑大学硕士学位论文 绪论 PAGE 12 分类号: 学校代码: 11349 UDC: 密级: 学 号:Y五邑大学硕士学位论文 (工学硕士) 基于密度和中心点的分布式数据流 聚类算法的研究 学 科 门 类: 工学 专 业 名 称: 计算机应用技术 研 究 方 向: 数据仓库与挖掘 学 生 所 属 学 院: 计算机学院 指导教师姓名、职称: 副教授 论 文 答 辩 日 期: 2012 年 5 月 24 日 摘要 PAGE III 摘 要 MACROBUTTON MTEditEquationSection2 SEQ MTEqn \r \h \* MERGEFORMAT SEQ MTSec \r 1 \h \* MERGEFORMAT SEQ MTChap \h \* MERGEFORMAT 聚类分析是数据挖掘中的重要研究内容之一。最近几年,随着计算机的普及和计算机应用技术的发展,人们获取数据的能力得到了极大提高。当前,数据流作为数据挖掘的一种新的研究内容,已经出现在各种应用领域,数据流的研究必将成为将来发展的趋势。由于数据流不是存储在数据库中的静态数据,而是具有连续、高速、动态和无限等特征,因此访问时只能顺序读取,访问一次或有限次。由于数据流的这些特点,给数据流挖掘带来了新的挑战,也为数据流挖掘算法提出了更高的要求。 目前人们已经提出了很多数据流聚类算法,并取得了一定的成果。本文主要以分布式数据流、密度和中心点为研究对象,针对数据流的特点,本文主要做了如下两方面的研究。 首先介绍了数据挖掘的相关概念及算法,分析研究了当前聚类的经典算法,在深入了解这些算法的基础上分析数据流挖掘的特点,提出了一种高维数据流降维的预处理算法GKPCA,达到了简化样本空间,降低时间复杂度和空间复杂度的效果,为数据流聚类创造了条件。 其次提出了一种基于密度和中心点的分布式数据流聚类算法DDCS-Clustering,由于数据流的不间断性,引入了中心点概念,采用衰减窗口机制获取数据,并应用数据流的密度关系形成聚类微簇,该算法不仅能够发现数据流任意形状的簇,而且能有效地处理噪声,从而减少了内存开销,提高了数据流聚类的质量。 实验基于Matlab研究降维算法,开源的数据流分类聚类平台WEKA和MOA测试数据流,与CluStream算法进行比较分析,实验结果表明,DDCS-Clusering算法具有可行性。 关键字:数据挖掘;数据流;密度;中心点;分布式;聚类 Abstract Abstract Abstract Clustering Analysis is one of the important research contents of Data Mining. In recent years, with the popularization of computer and the development of the computer application technology, people’s getting data capabilities have been greatly improved. At present, the Data Stream, as a new data processing mode, had appeared in a variety of applications fields. There is no doubt that the Data Stream will become trend of development in the future. Since the Data Stream is not the static data which stored in the database, but owns the characteristics such as continuous, high-speed, dynamic and infinities and so on. Thus, it can only be read sequentially, once or in limit times. Due to these characteristics of Data Stream, it brings new challenges to Data Mining, and put forwards
显示全部
相似文档