文档详情

基于MapReduce模式的NSTL用户热点检索词与-数字图书馆论坛.PDF

发布:2019-08-14约1.69万字共5页下载文档
文本预览下载声明
本期话题 http: // 基于MapReduce模式的NSTL用户热点检索词 与中西文期刊热点关键词的对比分析* □ 郝春云 / 中国科学技术信息研究所 北京 100038 摘要:文章简要介绍了MapRedu ce模式。基于2010年到2012年7月N STL 用户检索日志进行分析,采用 MapReduce模式,针对用户的检索行为以及热点检索词进行分析,并与当年出版的文献的关键词进行比较, 分析用户需求与文献提供的差异,旨在及时掌握用户的需求变化,为系统的功能完善、未来发展及文献采购 提供参考依据。 关键词:N STL ,检索词,关键词 DOI :10.3772/j .issn .1673—2286.2012.11.005 [2] 1 背景 用于大规模数据集的并行运算 。 外的另一个名字上去。化简操作工 概念“M ap (映射)”和“R e du c e 作方式很类似,但是由于化简操作 [1] N STL三期系统 自2010年4月 (化简)”,及它们的主要思想,都 的并行能力较差,主节点会尽量把 正式运行以来,累积了大量的日志 是从函数式编程语言借来的,还有 化简操作调度在一个节点上,或者 信息。针对这些日志进行分析,了解 从矢量编程语言借来的特性。当 离需要操作的数据尽可能近的节 [3] 用户需求,能够及时掌握用户的需 前的软件实现是指定一个Map (映 点上 。 求变化,为系统的功能完善、文献 射)函数,用来把一组键值对映射 MapReduce能将大数据问题分 采购及未来发展提供重要的参考 成一组新的键值对,指定并发的 解成多个子问题,将它们分配到成 依据。据笔者统计,从2010年4月1日 R edu c e (化简)函数,用来保证所 百上千个处理节点之上,然后将结 到2012年6月30 日,N STL 向用户提 有映射的键值对中的每一个共享相 果汇集到一个小数据集当中,从而 [2] 供检索服务7981580次。 同的键组 。 更容易分析得出最后的结果。因此 由于数据量较大,在直接用 M ap R e du c e通过把对数据集 Google MapReduce模式被广泛应 数据库进行统计时,容易出现缓存 的大规模操作分发给网络上的每 用于大数据的分析处理中。 溢出、结果集耗尽、IO写入错误等 个节点实现可靠性;每个节点会周 本文中利用MapReduce模式的 无法进行统计的情况,因此采用 期性地把完成的工作和状态的更新 算法过程如下: MapRedu ce模式进行了统计,先对 报告回来。如果一个节点保持沉默 (1)检索词和关键词文件切 数据进行切分,然后合并统计结果 超过一个预设的时间间隔,主节点 分:MapReduce对检索日志文件按 的方式来进行。 记录下这个节点状态为死亡,并把 行进行自动切分,并将数据分发到 分配给这个节点的数据发到别的节 每个M ap 任务,其中k ey 值为I D , 2 采用MapReduce算法 点。每个操作使用命名文件的不可 value值为count
显示全部
相似文档