文档详情

基于并行计算的大数据挖掘技术研究.pdf

发布:2017-05-18约8.03千字共3页下载文档
文本预览下载声明
基于并行计算的大数据挖掘技术研究 朱月恒 (武汉大学信息管理学院湖北430070) 【摘要】大数据时代的到来催生了并行数据挖掘技术。本文介绍了大数据的基本概念,研究了Hadoop平台分布式程 序设计模型MapReduce,并设计了并行数据挖掘中的并行分类算法和并行聚类算法。 【关键词】数据挖掘;并行计算;MapReduce;分类算法;聚类算法 中图分类号:TP311.13 文献标识码:A 文章编号:1009—6833(2014)05—053一02 on Data BasedonParallel Research Computing Big MiningTechnology Zhu Yueheng of risetodle data introducesthebasic Abstract:Theadventoftheera has百ven parallel11]d11ingtechnology.Thi5paper b培data distributed modelwaSsmdiedindlis a conceptofbigdata,Hadoopplatform pro掣a枷ng paper.Besides,chispaperdesiglledparauel inthe data and algoritlllTlpamⅡel rniningparanelclusteringalgorit№. soning Computmg;MapReduce;soningalgorit}lnls;clusteringalgorithm Keywords:DataMining;Parallel 0引言 2.1并行计算模式 随着云计算、物联网、社交网络等新兴技术的快速发展, 并行计算是指将顺序执行的计算任务分成可以同时执行的 带来了人类社会所拥有的数据面临着前所未有的爆炸式增长, 子任务并行执行这些子任务从而完成整个计算任务,其主要目 美国互联网数据中心指出,互联网上的数据每年以50%的速度 的是快速解决大型且复杂的计算问题【4j。并行计算是相对于串 增长,每两年翻~番,而目前世界上90%以上的数据是最近几 行计算来说的主要研究的是多个处理器并发的执行计算。而分 年才产生的,这标示着“大数据时代”正式到来。数据从简单的 布式计算可使两个或多个软件互相共享信息这些软件既可在同 处理对象开始转变为一种基础性资源,信息的拥有量已经成为 一台计算机上运行也可在通过网络连接起来的多台计算机上运 决定和制约社会发展的重要因烈“。 行。 1大数据的基本概念 2.2 并行数据挖掘模型——MapReduce 大数据本身是一个比较抽象的概念,能描绘出其特征。大 数据挖掘具有较大的价值。 件计算平台,可以让程序员很容易地开发和运行处理海量数据 1.1大数据的定义 的应用程序‘引。 Data)在业界尚无形成统一的定义,引用 目前大数据(Big 麦肯锡全球研究院在大数据:下一个创新竞争和生产力的前沿 序设计模型,用于处理和生成大量数据集。通过该模型,程序 报告中的描述,即:大数据是指无法在一定时间内用传统数据 自动分布到一个由普通机器组成的超大机群上并发执行。Map 库软件工具对其内容进行抓取管理和处理的数
显示全部
相似文档