文档详情

基于分布式数据流的大数据分类模型和算法.pdf

发布：2017-10-06约12.84万字共15页下载文档

文本预览下载声明

第卷第期计算机学报４０１　　　　　　　　　Ｖｏｌ．４０Ｎｏ．１年月２０１７１ＣＨＩＮＥＳＥＪＯＵＲＮＡＬＯＦＣＯＭＰＵＴＥＲＳＪａｎ．２０１７　　　　基于分布式数据流的大数据分类模型和算法毛国君胡殿军谢松燕　　（）中央财经大学信息学院北京１０００８６　　，摘要大数据是需求驱动的概念随着数据库系统的普及和因特网服务的扩张企业或者个人可用的数据正在．　　，，膨胀已有的技术很难满足大数据时代的数据分析需求因此需要探索新的理论和方法来支撑大数据的应用虽然．，，大数据的属性已经被广泛讨论但是它们大多描述的仍然是大数据的表象所以很难从中抽象出统一的数据格４Ｖ，式因而进一步寻找可用于数据格式化的技术特征是必要的面向于以分布式和流动性为主要技术特征的大数据．，，应用需求文中以分布式数据流为数据表达载体在此基础上设计对应的大数据分类模型和挖掘算子同时针对大．数据的分类挖掘需要解决的关键问题来构建关键步骤对应的算法理论上证明了文中给出的微簇合并技术和样本．：数据重构方法的合理性实验表明文中提出的基于分布式数据流的大数据的分类模型及算法不仅能大幅度地减．，（）；少网络节点间的通讯代价而且可以获得平均左右的全局挖掘精度的提升对比已有的典型算法１０％ＤＳｍｅａｎｓ－，、虽然时间花费略高于ＤＳｍｅａｎｓ但是两者在不同的数据容量测试下相差很小且时间攀升趋势相当．－

显示全部

相似文档