基于并行计算的大数据挖掘技术研究.pdf
文本预览下载声明
基于并行计算的大数据挖掘技术研究
朱月恒
(武汉大学信息管理学院湖北430070)
【摘要】大数据时代的到来催生了并行数据挖掘技术。本文介绍了大数据的基本概念,研究了Hadoop平台分布式程
序设计模型MapReduce,并设计了并行数据挖掘中的并行分类算法和并行聚类算法。
【关键词】数据挖掘;并行计算;MapReduce;分类算法;聚类算法
中图分类号:TP311.13 文献标识码:A 文章编号:1009—6833(2014)05—053一02
on Data BasedonParallel
Research Computing
Big MiningTechnology
Zhu
Yueheng
of risetodle data introducesthebasic
Abstract:Theadventoftheera has百ven parallel11]d11ingtechnology.Thi5paper
b培data
distributed modelwaSsmdiedindlis a
conceptofbigdata,Hadoopplatform pro掣a枷ng paper.Besides,chispaperdesiglledparauel
inthe data and
algoritlllTlpamⅡel rniningparanelclusteringalgorit№.
soning
Computmg;MapReduce;soningalgorit}lnls;clusteringalgorithm
Keywords:DataMining;Parallel
0引言 2.1并行计算模式
随着云计算、物联网、社交网络等新兴技术的快速发展, 并行计算是指将顺序执行的计算任务分成可以同时执行的
带来了人类社会所拥有的数据面临着前所未有的爆炸式增长, 子任务并行执行这些子任务从而完成整个计算任务,其主要目
美国互联网数据中心指出,互联网上的数据每年以50%的速度 的是快速解决大型且复杂的计算问题【4j。并行计算是相对于串
增长,每两年翻~番,而目前世界上90%以上的数据是最近几 行计算来说的主要研究的是多个处理器并发的执行计算。而分
年才产生的,这标示着“大数据时代”正式到来。数据从简单的 布式计算可使两个或多个软件互相共享信息这些软件既可在同
处理对象开始转变为一种基础性资源,信息的拥有量已经成为 一台计算机上运行也可在通过网络连接起来的多台计算机上运
决定和制约社会发展的重要因烈“。 行。
1大数据的基本概念 2.2 并行数据挖掘模型——MapReduce
大数据本身是一个比较抽象的概念,能描绘出其特征。大
数据挖掘具有较大的价值。 件计算平台,可以让程序员很容易地开发和运行处理海量数据
1.1大数据的定义 的应用程序‘引。
Data)在业界尚无形成统一的定义,引用
目前大数据(Big
麦肯锡全球研究院在大数据:下一个创新竞争和生产力的前沿 序设计模型,用于处理和生成大量数据集。通过该模型,程序
报告中的描述,即:大数据是指无法在一定时间内用传统数据 自动分布到一个由普通机器组成的超大机群上并发执行。Map
库软件工具对其内容进行抓取管理和处理的数
显示全部