基于MapReduce模式的NSTL用户热点检索词与-数字图书馆论坛.PDF
文本预览下载声明
本期话题
http: //
基于MapReduce模式的NSTL用户热点检索词
与中西文期刊热点关键词的对比分析*
□ 郝春云 / 中国科学技术信息研究所 北京 100038
摘要:文章简要介绍了MapRedu ce模式。基于2010年到2012年7月N STL 用户检索日志进行分析,采用
MapReduce模式,针对用户的检索行为以及热点检索词进行分析,并与当年出版的文献的关键词进行比较,
分析用户需求与文献提供的差异,旨在及时掌握用户的需求变化,为系统的功能完善、未来发展及文献采购
提供参考依据。
关键词:N STL ,检索词,关键词
DOI :10.3772/j .issn .1673—2286.2012.11.005
[2]
1 背景 用于大规模数据集的并行运算 。 外的另一个名字上去。化简操作工
概念“M ap (映射)”和“R e du c e 作方式很类似,但是由于化简操作
[1]
N STL三期系统 自2010年4月 (化简)”,及它们的主要思想,都 的并行能力较差,主节点会尽量把
正式运行以来,累积了大量的日志 是从函数式编程语言借来的,还有 化简操作调度在一个节点上,或者
信息。针对这些日志进行分析,了解 从矢量编程语言借来的特性。当 离需要操作的数据尽可能近的节
[3]
用户需求,能够及时掌握用户的需 前的软件实现是指定一个Map (映 点上 。
求变化,为系统的功能完善、文献 射)函数,用来把一组键值对映射 MapReduce能将大数据问题分
采购及未来发展提供重要的参考 成一组新的键值对,指定并发的 解成多个子问题,将它们分配到成
依据。据笔者统计,从2010年4月1日 R edu c e (化简)函数,用来保证所 百上千个处理节点之上,然后将结
到2012年6月30 日,N STL 向用户提 有映射的键值对中的每一个共享相 果汇集到一个小数据集当中,从而
[2]
供检索服务7981580次。 同的键组 。 更容易分析得出最后的结果。因此
由于数据量较大,在直接用 M ap R e du c e通过把对数据集 Google MapReduce模式被广泛应
数据库进行统计时,容易出现缓存 的大规模操作分发给网络上的每 用于大数据的分析处理中。
溢出、结果集耗尽、IO写入错误等 个节点实现可靠性;每个节点会周 本文中利用MapReduce模式的
无法进行统计的情况,因此采用 期性地把完成的工作和状态的更新 算法过程如下:
MapRedu ce模式进行了统计,先对 报告回来。如果一个节点保持沉默 (1)检索词和关键词文件切
数据进行切分,然后合并统计结果 超过一个预设的时间间隔,主节点 分:MapReduce对检索日志文件按
的方式来进行。 记录下这个节点状态为死亡,并把 行进行自动切分,并将数据分发到
分配给这个节点的数据发到别的节 每个M ap 任务,其中k ey 值为I D ,
2 采用MapReduce算法 点。每个操作使用命名文件的不可 value值为count
显示全部