文档详情

开放域冠名实体识别及层次化类别获取.pdf

发布:2025-05-13约3.21千字共6页下载文档
文本预览下载声明

开放域冠名实体识别及层次化类别获取

第1章绪论

基于机器学习的方法对特征选取的要求比较高,需要选择对命名实

体识别任务有影响的各种特征,并将这些特征组合成向量来表示文本中的

词语。命名实体的内部构成和外部语言环境都可以作为识别的特征[32–

34]。比如人名中的姓氏用字比较集中;地名和机构名有一些常用的后缀

,比如“**市”、“**公司”等;地名还常和“位于”、“到达”等动词

搭配使用。按照特征类型分类,命名实体识别通常使用的特征包括词语特

征、词性特征,还可以使用词典特征等。Cho等(2013)则抽取了百科知

识库中实体的上下文构成全局的词表帮助生物领域命名实体的识别[35]。

另外也有研究者对于特征的选择进行研究,Ekbal和Saha(2013)将多目

标模拟退火算法融合了命名实体特征选择和分类[36]。有指导的机器学习

方法主要的不足是数据稀疏问题,即训练数据不足。常见现象出现频率高

,统计方法有效,而对很多不常见的长尾现象,在有限的标注语料中不足

以显现其规律性,机器学习方法常常不能很好地处理。于是研究者设计使

用平滑技术,来处理稀疏数据的难题,但稀疏数据始终是机器学习面临的

挑战。机器学习方法相对于规则方法的一个改进在于可移植性,理论上,

同一个模型在不做任何修改的情况下,可以应用于任何领域的命名实体识

别任务。但实践证明,这种迁移并不能保证识别的效果。比如Ciaramita

和Altun(2005)研究发现在CONLL2003

评测的路透社新闻语料上训练的模型,在来源相同的路透社语料上进行评

测,F值可以达到0.908,但在华尔街杂志语料上评测,F值骤降为0.643[3

7]。

第2章基于双语平行语料的汉语命名实体训练语料自动构建

2.1引言

虽然有不少关于半指导或无指导机器学习的方法被提出,旨在利用

少量的标注样本以及大规模的未标注数据来训练命名实体识别模型,也取

得了不错的效果[43],但本文从另外的角度解决上述问题,采用自动生成

大规模语料库的方法来提高汉语命名实体识别模型的性能。由于汉语缺少

大小写信息,以及汉语分词引入的错误,汉语命名实体识别的难度远大于

英语命名实体识别,现存的英语命名实体识别系统效果普遍好于汉语上的

系统。幸运的是,通常应用于机器翻译任务的大量中英双语平行语料提供

了一座从英语命名实体到汉语命名实体的桥梁。通过词汇的对齐,英语命

名实体的信息(包括边界和类型)可以被映射到汉语中,用来标注汉语的

命名实体。本文中,我们利用现有的一个英语命名实体识别系统和平行语

料自动地生成大规模的汉语命名实体识别语料。

2.2相关工作

An等(2003)[100]和Whitelaw等(2008)[101]利用搜索引擎检索

网络文本资源来生成命名实体识别训练语料。他们利用一些种子实体,在

搜索引擎中检索,获取包含这些实体的句子。An将这些句子直接作为训练

语料,构建了一个韩语命名实体语料库,并且在其上训练的模型得到了与

人工标注语料相近的结果。Whitelaw则利用这些句子以及网页HTML结构等

信息获取模板,然后利用模板抽取更广泛的命名实体训练实例。这种方

的不足之处在于种子集合的构建同样是比较耗费人力物力的。Richman和S

chone(2008)[102]、Nothman等(2008,2013)[103,104]

以及Ling和Weld(2012)[14]运用了类似的方法从维基百科生成命名实体

识别语料。他们首先将维基百科上的文章进行分类,比如分为人名、地名

、机构名和其他。然后利用文章之间的链接关系,将锚文本进行标注,从

而获得命名实体训练语料。但文章分类时同样需要事先花费人力来构建一

些种子。

第3章基于自学习的开放域命名实体边界识别

40

3.1引言40

3.2相关工作41

第4章基于多信息源的开放域命名实体类别获取

57

4.1引言57

4.2相关工作58

4.2.1基于模式匹配的方58

第5章

基于词汇分布表示的开放域命名实体类别层次化

..75

5.1引言75

5.2相关工作76

5.2.1语义层次化相关工作76

显示全部
相似文档