文档详情

基于MapReduce模式的NSTL用户热点检索词与-数字图书馆论坛.PDF

发布：2019-08-14约1.69万字共5页下载文档

文本预览下载声明

本期话题 http: // 基于MapReduce模式的NSTL用户热点检索词与中西文期刊热点关键词的对比分析* □ 郝春云 / 中国科学技术信息研究所北京 100038 摘要：文章简要介绍了MapRedu ce模式。基于2010年到2012年7月N STL 用户检索日志进行分析，采用 MapReduce模式，针对用户的检索行为以及热点检索词进行分析，并与当年出版的文献的关键词进行比较，分析用户需求与文献提供的差异，旨在及时掌握用户的需求变化，为系统的功能完善、未来发展及文献采购提供参考依据。关键词：N STL ，检索词，关键词 DOI ：10.3772/j .issn .1673—2286.2012.11.005 [2] 1 背景用于大规模数据集的并行运算。外的另一个名字上去。化简操作工概念“M ap （映射）”和“R e du c e 作方式很类似，但是由于化简操作 [1] N STL三期系统自2010年4月（化简）”，及它们的主要思想，都的并行能力较差，主节点会尽量把正式运行以来，累积了大量的日志是从函数式编程语言借来的，还有化简操作调度在一个节点上，或者信息。针对这些日志进行分析，了解从矢量编程语言借来的特性。当离需要操作的数据尽可能近的节 [3] 用户需求，能够及时掌握用户的需前的软件实现是指定一个Map （映点上。求变化，为系统的功能完善、文献射）函数，用来把一组键值对映射 MapReduce能将大数据问题分采购及未来发展提供重要的参考成一组新的键值对，指定并发的解成多个子问题，将它们分配到成依据。据笔者统计，从2010年4月1日 R edu c e （化简）函数，用来保证所百上千个处理节点之上，然后将结到2012年6月30 日，N STL 向用户提有映射的键值对中的每一个共享相果汇集到一个小数据集当中，从而 [2] 供检索服务7981580次。同的键组。更容易分析得出最后的结果。因此由于数据量较大，在直接用 M ap R e du c e通过把对数据集 Google MapReduce模式被广泛应数据库进行统计时，容易出现缓存的大规模操作分发给网络上的每用于大数据的分析处理中。溢出、结果集耗尽、IO写入错误等个节点实现可靠性；每个节点会周本文中利用MapReduce模式的无法进行统计的情况，因此采用期性地把完成的工作和状态的更新算法过程如下： MapRedu ce模式进行了统计，先对报告回来。如果一个节点保持沉默（1）检索词和关键词文件切数据进行切分，然后合并统计结果超过一个预设的时间间隔，主节点分：MapReduce对检索日志文件按的方式来进行。记录下这个节点状态为死亡，并把行进行自动切分，并将数据分发到分配给这个节点的数据发到别的节每个M ap 任务，其中k ey 值为I D ， 2 采用MapReduce算法点。每个操作使用命名文件的不可 value值为count

显示全部

相似文档