文档详情

开放域冠名实体识别及层次化类别获取.pdf

发布：2025-05-13约3.21千字共6页下载文档

文本预览下载声明

开放域冠名实体识别及层次化类别获取

第1章绪论

基于机器学习的方法对特征选取的要求比较高，需要选择对命名实

体识别任务有影响的各种特征，并将这些特征组合成向量来表示文本中的

词语。命名实体的内部构成和外部语言环境都可以作为识别的特征[32–

34]。比如人名中的姓氏用字比较集中；地名和机构名有一些常用的后缀

，比如“**市”、“**公司”等；地名还常和“位于”、“到达”等动词

搭配使用。按照特征类型分类，命名实体识别通常使用的特征包括词语特

征、词性特征，还可以使用词典特征等。Cho等（2013）则抽取了百科知

识库中实体的上下文构成全局的词表帮助生物领域命名实体的识别[35]。

另外也有研究者对于特征的选择进行研究，Ekbal和Saha（2013）将多目

标模拟退火算法融合了命名实体特征选择和分类[36]。有指导的机器学习

方法主要的不足是数据稀疏问题，即训练数据不足。常见现象出现频率高

，统计方法有效，而对很多不常见的长尾现象，在有限的标注语料中不足

以显现其规律性，机器学习方法常常不能很好地处理。于是研究者设计使

用平滑技术，来处理稀疏数据的难题，但稀疏数据始终是机器学习面临的

挑战。机器学习方法相对于规则方法的一个改进在于可移植性，理论上，

同一个模型在不做任何修改的情况下，可以应用于任何领域的命名实体识

别任务。但实践证明，这种迁移并不能保证识别的效果。比如Ciaramita

和Altun（2005）研究发现在CONLL2003

评测的路透社新闻语料上训练的模型，在来源相同的路透社语料上进行评

测，F值可以达到0.908，但在华尔街杂志语料上评测，F值骤降为0.643[3

7]。

第2章基于双语平行语料的汉语命名实体训练语料自动构建

2.1引言

虽然有不少关于半指导或无指导机器学习的方法被提出，旨在利用

少量的标注样本以及大规模的未标注数据来训练命名实体识别模型，也取

得了不错的效果[43]，但本文从另外的角度解决上述问题，采用自动生成

大规模语料库的方法来提高汉语命名实体识别模型的性能。由于汉语缺少

大小写信息，以及汉语分词引入的错误，汉语命名实体识别的难度远大于

英语命名实体识别，现存的英语命名实体识别系统效果普遍好于汉语上的

系统。幸运的是，通常应用于机器翻译任务的大量中英双语平行语料提供

了一座从英语命名实体到汉语命名实体的桥梁。通过词汇的对齐，英语命

名实体的信息（包括边界和类型）可以被映射到汉语中，用来标注汉语的

命名实体。本文中，我们利用现有的一个英语命名实体识别系统和平行语

料自动地生成大规模的汉语命名实体识别语料。

2.2相关工作

An等（2003）[100]和Whitelaw等（2008）[101]利用搜索引擎检索

网络文本资源来生成命名实体识别训练语料。他们利用一些种子实体，在

搜索引擎中检索，获取包含这些实体的句子。An将这些句子直接作为训练

语料，构建了一个韩语命名实体语料库，并且在其上训练的模型得到了与

人工标注语料相近的结果。Whitelaw则利用这些句子以及网页HTML结构等

信息获取模板，然后利用模板抽取更广泛的命名实体训练实例。这种方

的不足之处在于种子集合的构建同样是比较耗费人力物力的。Richman和S

chone（2008）[102]、Nothman等（2008,2013）[103,104]

以及Ling和Weld（2012）[14]运用了类似的方法从维基百科生成命名实体

识别语料。他们首先将维基百科上的文章进行分类，比如分为人名、地名

、机构名和其他。然后利用文章之间的链接关系，将锚文本进行标注，从

而获得命名实体训练语料。但文章分类时同样需要事先花费人力来构建一

些种子。

第3章基于自学习的开放域命名实体边界识别

3.1引言40

3.2相关工作41

第4章基于多信息源的开放域命名实体类别获取

4.1引言57

4.2相关工作58

4.2.1基于模式匹配的方58

第5章

基于词汇分布表示的开放域命名实体类别层次化

..75

5.1引言75

5.2相关工作76

5.2.1语义层次化相关工作76

显示全部

相似文档