基于网络搜索的问答系统-计算机科学与技术专业论文.docx
文本预览下载声明
Classified Index: TP391.3 UDC: 621.3
Dissertation for the Master Degree in Engineering
Question Answering System Based On Web Search
Candidate:
Liu Zengjian
Supervisor:
Prof. Wang Xiaolong
Academic Degree Applied for:
Master Degree in Engineering
Speciality:
Computer Science and Technology
Affiliation:
Shenzhen Graduate School
Date of Defence:
June, 2013
Degree-Conferring-Institution:
Harbin Institute of Technology
哈尔滨工业大学工学硕士学位论文
哈尔滨工业大学工学硕士学位论文
-
- I -
摘 要
随着 Internet 的不断发展,网络已经成为人们获取信息的重要来源。 如 何快速方便的从网络中获取信息,已经成为人们努力研究的焦点。 虽然搜索 引擎和自动问答系统的出现很好的解决了这一问题,但是它 们各自仍然存在 着一些不足。搜索引擎以关键词的方式检索信息,很难清晰表达用户的意图, 而且返回的结果是相关网页的集合,仍然需要用户自己手动查找答案。传统 的自动问答系统虽然能够弥补搜索引擎的这些不足,接受用户输入问题,并 返回准确答案,但是它需要独立维护一个非常庞大的知识库, 因而信息覆盖 范围小和更新速度慢成为了自动问答系统最主要的缺点。为了弥补这个不足, 本文提出了一种基于 网络搜索的问答系统,将互联网作为系统的知识库,利 用搜索引擎检索网络中的信息,最后根据用户输入的问题,从中提取出正确 答案,并返回给用户。
本文根据传统问答系统的三个模块结构,详细设计了系统的整体框架, 并针对各个模块进行任务划分。在问题分析模块主要进行了问题分类和关键 词提取的工作。信息检索模块主要 利用搜索引擎检索网络中的相关文档,并 将其爬取下来。答案提取模块根据问题类型和信息来源分别制定了不同的答 案提取和评分策略。本文利用命名实体识别技术对事实类问题进行答案抽取 , 利用答案相似度计算 方法对非事实类问题进行答案抽取,并以概率计算的方 式为每一个候选答案评分。即分别计算网页的先验概率和答案在网页中的条 件概率,最终将评分最高的候选答案返回给用户。
本文对问题分析和答案提取模块进行了一些改进。首先针对几种特殊类 型的问题对原有的问题分类模型进行了改进 。然后利用句法依存关系从问题 中提取限定词,为每个关键词设定不同的权重。最后利用关键词的权重分别 对答案评分方法和答案相似度计算方法进行了改进。
本文在构建和实现基于搜索引擎的问答系统基础上 ,利用人工构建的问 题测试集对系统的性能进行了测试,还对问题分类和答案提取 的改进方案进 行了评价分析。最后的实验数据表明了本文提出的改进方案的有效性。而系 统的实际运行效果也证明了该系统在实际应用中的可行性。
关键词:信息检索;问答系统;答案抽取;命名实体识别
-
- II -
Abstract
With the rapid development of Internet, the network has become an important source of information. How fast and easy to get information from network has become the focus of research. Although the search engines and automatic question answering system has solved this problem, there are also some shortages of them. Searching information with keywords, search engine cannot express the intention of users clearly. And the result of search engine is a set of relevant pages, so it needs users to find the final answer by themselves. However the traditional automatic question answering system can improve these s
显示全部