基于 Hadoop的Apriori算法与实现.pdf
文本预览下载声明
第34卷 第3期 桂 林 理 工 大 学 学 报 Vol34No3
2014年8月 JournalofGuilinUniversityofTechnology Aug 2014
文章编号:1674-9057(2014)03-0584-05 doi:103969/j.issn1674-9057201403030
基于Hadoop的Apriori算法与实现
a b b b
孙赵旭 ,谢晓兰,周国清 ,倪金生 ,胡 莘
(桂林理工大学 a信息科学与工程学院;b广西空间信息与测绘重点实验室,广西 桂林 541004)
摘 要:针对传统Aprion数据挖掘算法平台的硬件瓶颈以及算法运算耗时、需要重复扫描数据库等缺点,
提出了一种基于Hadoop平台应用MapReduce模型与Hbase,对Apriori进行云端的迁移和优化的算法,并
与其他的改进Apriori算法进行了分析与比较。实验结果表明:新的云端算法降低了时间复杂度,使其可
以更好的进行数据处理。
关键词:数据挖掘;云计算;Hadoop;Hbase;MapReduce;Apriori
中图分类号:TP393;TP31113 文献标志码:A
目前,传统的数据挖掘模型已不适用于多维 其中运用最多的就是大名鼎鼎的 HDFS(hadoop
度、多噪声的海量 GIS数据,由于传统的挖掘平 [4]
distributedfilesystem)、MapReduce和 Hbase ,
台自身在计算处理能力上具有局限性,同时,平 这3项组成了Hadoop的技术架构 (图1)。
台在硬件方面遇到瓶颈,而在挖掘算法方面又遇
[1]
到软件性能制约 ,因此,研究一种新的GIS海
量数据的挖掘平台和高效的数据挖掘实现模型是
当前急需解决的问题。云计算和新的并行编程模
式 [2]
MapReduce的出现 ,为上述问题的解决提供
了基础。云计算具有快速与弹性的资源配给的特 图1 Hadoop的技术架构
Fig1 TechnicalarchitectureforHadoop
点,这为数据处理带来了新型低成本计算环境,
可以很容易组建一个有着强大计算能力的平台, MapReduce的主要思想是从函数式编程语言
[3]
为海量数据分析提供强大的计算力 。 里借鉴来的,它包含2个重要函数:Map(映射)
函数和Reduce(化简)函数。Map函数由用户自
1 Hadoop平台、Hbase以及Apriori算法
己定义,它接受一个输入对,之后会生成一个中
11 Hadoop简介 间的KeyValue对集,之后MapReduce库会把其中
Hadoop是Apache软件基金会开发的、开源分 具有相同的Key的中间值 Combine(连接)在一
布式基础系统架构,它的特点是可以使分布式计 起,之后再传递给Reduce函数 (它也是用户自定
算平台的开发更加容易,使其方便并行处理大规 义的)。Reduce函数会接受中间Key和其相关的
模数据。它使用Java语言进行开发,可以广泛地 Value集,再将其合并Value使之成为更小的Value
移植到各种软硬件平台上。Hadoop的子项目众多,
显示全部