基于MapReduce的数据聚集运算算法.pdf
文本预览下载声明
中国科技论文在线
基于MapReduce 的数据聚集运算算法
冷芳玲,鲍玉斌,高伟,于戈
( 东北大学信息科学与工程学院,沈阳 110004)
摘要:为解决数据仓库中海量数据的处理效率问题,可以采用数据聚集预计算的方法,但是
针对海量级别数据的聚集运算非常耗费计算资源,需要巨大的计算能力和存储能力,因此提
出了一组基于MapReduce 的面向海量数据的数据聚集运算算法,主要包括数据的选择、投
影以及等值连接等,并在此基础上,实现了计数、求和、均值等聚集运算,形成了比较完整
的面向海量数据的聚集运算算法。实验结果表明,该算法充分利用了集群系统的计算能力和
存储能力,极大地提高了海量数据的聚集运算效率和基于聚集运算结果上的数据查询效率。
关键词:数据仓库;聚集运算;MapReduce;联机分析处理
中图分类号:TP 311 文献标识码:A
MapReduce-based data aggregation algorithms
Leng Fangling, Bao Yubin, Gao Wei, Yu Ge
(College of Information Science Engineering, Northeastern University, Shenyang 110819,
China)
Abstract :To improve the computing efficiency of massive data in data warehouses, aggregation
computing is one of the most typical data pre-processing methods. But it requires enormous computing
power and storage capacity. So a set of MapReduce-based aggregation algorithms for massive data are
proposed, mainly including data selection, projection and equivalent joint, etc. And the counting,
summing, and averaging operations are implemented. They make a family of aggregation operation
algorithms. Experiments show that the algorithms make full use of the cluster computing power and
storage capacity, thus greatly improving the efficiency of the aggregation operations, and enhancing the
query efficiency on massive data based on the aggregation results.
Key words :data warehouse; aggregation; MapReduce; on-line analytical processing
0 引言
随着数据采集技术的不断发展和廉价存储容量的不断扩大,收集和存储以指数级增长的
数据资源成为可能。而科学应用的计算和数据需求在最近几年里有了急剧地增长。科学计算
[1-2]
数据量的这种指数级增长已经超过了摩尔定律预测的计算能力和存储空间的增长速度 。
例如,国家“数字海洋”工程中的数据中
显示全部