文档详情

基于卷积神经网络多文本特征问答系统.doc

发布:2018-08-25约5.44千字共10页下载文档
文本预览下载声明
基于卷积神经网络多文本特征问答系统   摘要:基于文档的问答系统的研究目标是从给定的文档集合中筛选出某些文档作为用户问题的正确答案,其核心在于计算问题和答案这两个语句的相似度。在该文中,我们研究了各项文本结构特征和文本统计特征:Term Frequency-inverse Document Frequency(TF-IDF)和最长公共子序列(Longest Common Subsequence,LCS),同时我们设计了特定的卷积神经网络(Convolutional Neural Networks,CNN)结构并融合研究的特征,从而得到一种表达能力好的问答对的向量表示。我们提出的模型不依赖于任何外部的语言工具并且能够适用于多个领域和多种语言。实验结果表明,该卷积神经网络模型能够很好的表达文档之间的相似性,而且在加入TF-IDF和LCS特征之后该模型的性能进一步得到提升。我们利用这个模型在NLPCC-2017 Document-Based Question Answering(DBQA)比赛中Mean Average Precision(MAP)值能达到0.6809和Mean Reciprocal Rank(MRR)值达到0.6850。   关键词:问答系统;卷积神经网络;TF-IDF;LCS   中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)03-0177-02   1 概述   问答系统在自然语言处理和文本检索领域是一项重要的研究任务。基于搜索的问答系统[1]的主要任务是计算两个语句之间的语义相似度并依照相似度排序筛选出最相似的答案[2,3]。本文所研究的基于文档集合的问答系统任务可以表述成:给定一个用户问题(q)和一系列答案文档集合({a1, a2, …, an});我们需要从答案文档中挑选出最好的一个答案(ai, 1=i=n)。通过对本文数据集的研究发现,当前的文本匹配方法[4]无法直接用于解决本文中的问题,因此我们提出新模型主要为了解决一下问题:   1) 如何得到问答对之间的最有价值的特征?通过分析DBQA数据集,我们发现问答对主要是短文本,甚至有的只是一个地名或者人名。因此问答对的这个特征使得很多次的频率很小,有可能是1或者2。这个特征表明问答对中的每一个词都可能含有重要的语义。   2) 如何得到一个能够考虑正负问答对样本的网络结构?在本文,对于DBQA数据集来说,我们同时将一个问题和它的正确、错误答案作为卷积神经网络模型的输入,从而得到一个效果好的网络模型。   本文主要通过构造一个卷积神经网络模型并利用文本特征提升模型效果。问答对集合通过该模型的训练我们能够得到问答对向量化表示,因此可以利用该向量化表示进一步计算问答对之间的相似度从而筛选出正确答案。   2 基于CNN的问答系统   我们的问答系统模型(QA-Model)主要是基于卷积神经网络。目前,卷积神经网络模型在图像处理[5][6]以及机器翻译领域[7]中都取得了重大的突破。我们通过借鉴CNN在图像处理过程中的特点,从而利用CNN提取问答对的文本体征。   在本文的模型QA-Model中,如图1所示,Q表示用户问题,首先它经过嵌入层(Embedding)的处理变为向量VQ,CNN将VQ作为输入并处理得到用户问题的向量化表示。同理,我们也可以同时得到答案文档A的向量化表示。最后通过计算两者的向量化表示的余弦值,并将其作为两者的相似度表示。   2.1 文本预处理   Term Frequency-Inverse Document Frequency(TF-IDF)[8]可以用于计算词语在文本语料中语义表达的重要性。通过研究DBQA数据集,我们发现大部分问答对的主题都是各不相同的。这意味着每对问答对的语义不同和重要的词语不同。因此,TF-IDF可以很好的用于处理该类型语料集合,同时我们将抽取出前3个TF-IDF值大的词语作为每个问答对的特征。通过实验可以证明,在加入该特征之后DBQA的MRR值可提升2%左右。   Longest Common Subsequence(LCS)[9]利用了文本的统计学特征,将两个文本之间的最长子序列考虑在内。对于某个问答对来说,我们利用动态规划算法找出问和答之间的LCS,并将其作为新特征加入CNN模型,结果使它的MRR值提升1%。   2.2 嵌入层   如图2所示,CNN的输入是一个词语的序列(q=,d表示长度),词向量(V)的大小是m,其中词向量表示都来自word2vec训练的词向量表(W)。   2.3 卷积层和池化层   卷积层是一种特殊的线性计算方式,通常用于特征抽取。我们可以假设输入序列q=(d是固定长度)和序列中的第i个词向量是vqi=(m是
显示全部
相似文档