文档详情

人机对话系统中若干关键问题的研究.pdf

发布:2015-08-19约12.39万字共99页下载文档
文本预览下载声明
摘要 人机对话系统是自然语言处理技术应用的前沿领域,它的性能的好坏取决若 干关键问题,包括:会话言语的结构分析,会话言语的语义理解,会话过程的调 度管理等等。本文的研究围绕着这些关键问题展开,并取得了如下5个方面的成 果: (1)独立的提出了基本会话结构的概念。 综合语言本身和工程应用的要求,本文从4个方面对基本会话结构的概念做 出了限定,认为a)基本会话结构就是会话结构中最基本的对答单元b)由两个 或者两个以上不同言语者的言语行为序列所组成c)形式上固定地表现为引发语 后接应答语的稳态结构d)具有明确的语义内涵。以此为基础,进而提出了多层 次的浅层会话结构标记体系,并应用于TSC973电话口语语料库。基本会话结构 概念的提出将言语行为的研究朝着会话结构的方向作了有益的延伸;同时又避免 了完整的HCRC方案难以实现的尴尬,具有显著的实践背景和现实意义。(详 见第二章) (2)本文首次将HHMM模型应用于会话结构分析。 本文采用由简至繁的方式依次展示了如何将朴素贝叶斯、HMM,HHMM应 用于浅层会话分析。在HHMM算法方面,本章首先展示了HHMM的PCFG等 价表达,然后进一步说明HHMM可以采用CKY来进行解码,并且给出了具体 的解码算法。针对HHMM时空耗费较高的缺陷,我们首次提出了它的分层求解 体系,分为两个层面三个部分:两个层面是语义层面和语法层面;三个部分包括 基本会话结构边界识别,基本会话结构语义识别,基本会话内部拓扑识别。对 于基本会话结构的边界识别,本文提出了基于最大熵的两种方案 出了一种分层的规则和统计相结合的处理框架:对于基本会话结构的内部拓扑识 别,本文首先将其因子化为位置因子,正反因子,语用因子三个部分,然后分别 加以处理:对应位置因子,本文采用HMM来识别;正反信息和语用信息在 TSC973语料库中规律性比较强,本文仅仅采用了一些简单的规则处理方法。我 们的实验表明,HHMM分层求解体系最终输出的F值为39.54%,较HMM模型 和朴素贝叶斯模型均有显著提高,其中比HMM模型的F值提高6.33个百分点。 (详见第二章) (3)率先对会话结构的无监督推导作了探索性的研究。 作为会话结构有导识别的延伸和拓展,本文率先对会话结构的无监督推导作 了探索性的研究。特别的,本文将研究的焦点集中在基本会话结构边界的无监督 学习上。首先,通过阐述言语行为之间互信息分布图,展示了互信息分布和基本 会话结构边界的关联性,在一定程度上说明了通过言语行为之间的关联程度来进 行基本会话结构边界探测的合理性:其次,提出了一种基本会话结构组块的综合 评分机制,分别从组块内连接强度和组块间连接强度两个方面来衡量一个目标组 块成为基本会话结构的可能性,并且在此基础上构造了基于动态规划的无监督切 分算法,实现了在完整会话范围内寻求最优切分。实验结果显示基于组块综合评 分机制的系统性能F值达到69.16%,较基于MI的无监督推导性能高出近15个 百分点。(详见第三章) (4)提出了一种改进了的基于议程的DM管理框架。 对话的任务结构表现在过程性结构和描述性结构两个方面,为了更好的处理 具有这两种典型结构的复杂任务,本文在基于议程的对话管理系统的框架中引入 了特征结构(FS),从而不仅保留了原有过程性处理方面的优点,同时又结合 了特征结构适用于描述复杂对象的特点,有效的拓展了DM对于复杂对话任务 的处理能力。(详见第四章) (5)提出了一种基于随机森林的浅层句法分析的算法。 对于CoNLL2000提出的浅层句法分析任务,本文提出了~种新型的基于随 机森林的算法,研究表明本文提出的算法能够降低对系统内存的需求,并且展示 5棵树、15维时出现 值,从而实现性能的改善。实验表明基本模型+Bootstrap 峰值,E达到92.25%,优于基本模型性能最大值O.46个百分点。(详见第五章) 关键词:基本会话结构层次隐马尔可夫无监督推导对话管理随机森林 ABSTRACT isaresearchfrontofnatural dialoguesystem languageprocessing,of Spoken the
显示全部
相似文档