文档详情

大学本科生毕业论文基于PARADISE平台论文检索系统.doc

发布:2018-02-02约2.46万字共45页下载文档
文本预览下载声明
本科生毕业论文 题目:基于PARADISE 平台论文检索系统 Literature Search Design based on PARADISE 姓 名: 李峰 号: 系: 信息科学技术学院 专 业: 计算机科学与技术系 指导教师: 闫宏飞 副教授 二〇一五年四月二十日 摘要: 本文基于天网实验室的 Platform for Applying, Researching And Developing Intelligent Search Engine (PARADISE)搜索引擎平台,通过以从抓取的计算机网络方向的2 500多篇论文为数据,搭建成一个论文搜索系统,最终目的是通过论文之间的引 用关系,获得其他引用这篇论文的作者对这篇论文的评价,形成一个小的评价段 落,以及Impact-based Summaries,从而使得我们能够从专业级的角度获得这篇论文的内容以及优劣。 我们首先根据上面抓取了文章之间的引用关系,然后通过一个 算法获得了对一篇文章评价的候选句子集,根据这些句子的重要程度进行排序, 获得一个评价短文。并且构建了一个语言模型,通过这些候选句子集对原文的句 子进行评分,取得分最高的几个句子,获得原文基于影响的概括。 关键词 搜索引擎, 论文评价, 语言模型, KL-divergence算法, 基于影响的概括 Abstract In this paper, based on the PARADISE (Platform for Applying, Researching and Developing Intelligent Search Engine) and the data of 2500 paper in area of computer network, we construct a search engine of papers. Our goal is to get the comment and impact-based summaries of one paper based on the reference relations between the papers. We firstly get candidate sentence which comment on the previous paper and generate a citation context. Then we construct a Language Model, through the citation context, we can score the sentence in the previous paper, and get the impact-based summaries. Key words Search Engine, Paper Comment, Language Model, KL-divergence Scoring, Impact-based Summaries 目录 第1章 引言 1 1.1研究背景 1 1.2工作内容 2 1.2.1抓取所需要的论文数据 2 1.2.2获得一篇论文的评价并较好的显示出来 2 1.2.3获得一篇论文基于影响的总结段落 3 1.2.4基于PARADISE平台搭建搜索平台 3 1.3实验的意义 3 第2章 数据的收集 5 2.1如何提取数据 5 2.2数据抓取的过程 6 2.3数据的存储及解析 7 第3章 生成评论集 10 3.1获得评价的候选句子集 10 3.2获得评论段落 11 第4章 建立模型并生成基于影响的概括 13 4.1建模之前我们所有的数据 13 4.2建模算法 13 4.3算法的实现 14 4.4获得基于影响的概括 15 第5章 搭建搜索引擎 16 5.1 paradise结构简介 16 5.2修改索引部分 17 5.3修改前台部分 18 5.4系统示意图 19 5.4.1主界面 19 5.4.2搜索结果界面 20 5.4.3评论界面 21 第6章 实验结果与分析 22 6.1实验结果 22 6.2具体分析 22 第7章 后续工作 26 第8章 致谢 27 第1章 引言 1.1研究背景 如今,全世界范围内学术活动日益积极,所产生的论文也在不断增多,因此, 如何搜索到自己所需要的论文,以及自动获取一些关于论文的信息,是客观需要 的。学术检索,绝不简简单单的检索出所要查找的论文,这样就和普通的通用搜 索引擎如google等一样了。学术检索,更侧重于深层次的内容挖掘。 例如,可以通过一篇论文所引用的文章以及所属领域,寻找出这个文章所在 领域的主要论文,这对了解一篇论文的背景知识以及理解一个领域的发展非常 重要。在[1]1
显示全部
相似文档