文档详情

基于 Hadoop的Apriori算法与实现.pdf

发布:2017-08-20约1.31万字共5页下载文档
文本预览下载声明
第34卷 第3期 桂 林 理 工 大 学 学 报 Vol34No3 2014年8月 JournalofGuilinUniversityofTechnology Aug 2014  文章编号:1674-9057(2014)03-0584-05      doi:103969/j.issn1674-9057201403030 基于Hadoop的Apriori算法与实现 a b b b 孙赵旭 ,谢晓兰,周国清 ,倪金生 ,胡 莘 (桂林理工大学 a信息科学与工程学院;b广西空间信息与测绘重点实验室,广西 桂林 541004) 摘 要:针对传统Aprion数据挖掘算法平台的硬件瓶颈以及算法运算耗时、需要重复扫描数据库等缺点, 提出了一种基于Hadoop平台应用MapReduce模型与Hbase,对Apriori进行云端的迁移和优化的算法,并 与其他的改进Apriori算法进行了分析与比较。实验结果表明:新的云端算法降低了时间复杂度,使其可 以更好的进行数据处理。 关键词:数据挖掘;云计算;Hadoop;Hbase;MapReduce;Apriori 中图分类号:TP393;TP31113          文献标志码:A 目前,传统的数据挖掘模型已不适用于多维 其中运用最多的就是大名鼎鼎的 HDFS(hadoop 度、多噪声的海量 GIS数据,由于传统的挖掘平 [4] distributedfilesystem)、MapReduce和 Hbase , 台自身在计算处理能力上具有局限性,同时,平 这3项组成了Hadoop的技术架构 (图1)。 台在硬件方面遇到瓶颈,而在挖掘算法方面又遇 [1] 到软件性能制约 ,因此,研究一种新的GIS海 量数据的挖掘平台和高效的数据挖掘实现模型是 当前急需解决的问题。云计算和新的并行编程模 式 [2] MapReduce的出现 ,为上述问题的解决提供 了基础。云计算具有快速与弹性的资源配给的特 图1 Hadoop的技术架构 Fig1 TechnicalarchitectureforHadoop 点,这为数据处理带来了新型低成本计算环境, 可以很容易组建一个有着强大计算能力的平台, MapReduce的主要思想是从函数式编程语言 [3] 为海量数据分析提供强大的计算力 。 里借鉴来的,它包含2个重要函数:Map(映射) 函数和Reduce(化简)函数。Map函数由用户自 1 Hadoop平台、Hbase以及Apriori算法 己定义,它接受一个输入对,之后会生成一个中 11 Hadoop简介 间的KeyValue对集,之后MapReduce库会把其中 Hadoop是Apache软件基金会开发的、开源分 具有相同的Key的中间值 Combine(连接)在一 布式基础系统架构,它的特点是可以使分布式计 起,之后再传递给Reduce函数 (它也是用户自定 算平台的开发更加容易,使其方便并行处理大规 义的)。Reduce函数会接受中间Key和其相关的 模数据。它使用Java语言进行开发,可以广泛地 Value集,再将其合并Value使之成为更小的Value 移植到各种软硬件平台上。Hadoop的子项目众多,
显示全部
相似文档