基于分布式数据流的大数据分类模型和算法.pdf
文本预览下载声明
第 卷 第 期 计 算 机 学 报
40 1
Vol.40 No.1
年 月
2017 1 CHINESEJOURNALOF COMPUTERS Jan.2017
基于分布式数据流的大数据分类模型和算法
毛国君 胡殿军 谢松燕
( )
中央财经大学信息学院 北京 100086
,
摘 要 大数据是需求驱动的概念 随着数据库系统的普及和因特网服务的扩张 企业或者个人可用的数据正在
.
, ,
膨胀 已有的技术很难满足大数据时代的数据分析需求 因此需要探索新的理论和方法来支撑大数据的应用 虽然
.
, ,
大数据的 属性已经被广泛讨论 但是它们大多描述的仍然是大数据的表象 所以很难从中抽象出统一的数据格
4V
,
式 因而进一步寻找可用于数据格式化的技术特征是必要的 面向于以分布式和流动性为主要技术特征的大数据
.
, ,
应用需求 文中以分布式数据流为数据表达载体 在此基础上设计对应的大数据分类模型和挖掘算子 同时针对大
.
数据的分类挖掘需要解决的关键问题来构建关键步骤对应的算法 理论上证明了文中给出的微簇合并技术和样本
.
:
数据重构方法的合理性 实验表明 文中提出的基于分布式数据流的大数据的分类模型及算法不仅能大幅度地减
.
, ( );
少网络节点间的通讯代价 而且可以获得平均 左右的全局挖掘精度的提升 对比已有的典型算法
10% DS means
-
, 、
虽然时间花费略高于DS means 但是两者在不同的数据容量测试下相差很小 且时间攀升趋势相当.
-
显示全部