开放域冠名实体识别及层次化类别获取.pdf
开放域冠名实体识别及层次化类别获取
第1章绪论
基于机器学习的方法对特征选取的要求比较高,需要选择对命名实
体识别任务有影响的各种特征,并将这些特征组合成向量来表示文本中的
词语。命名实体的内部构成和外部语言环境都可以作为识别的特征[32–
34]。比如人名中的姓氏用字比较集中;地名和机构名有一些常用的后缀
,比如“**市”、“**公司”等;地名还常和“位于”、“到达”等动词
搭配使用。按照特征类型分类,命名实体识别通常使用的特征包括词语特
征、词性特征,还可以使用词典特征等。Cho等(2013)则抽取了百科知
识库中实体的上下文构成全局的词表帮助生物领域命名实体的识别[35]。
另外也有研究者对于特征的选择进行研究,Ekbal和Saha(2013)将多目
标模拟退火算法融合了命名实体特征选择和分类[36]。有指导的机器学习
方法主要的不足是数据稀疏问题,即训练数据不足。常见现象出现频率高
,统计方法有效,而对很多不常见的长尾现象,在有限的标注语料中不足
以显现其规律性,机器学习方法常常不能很好地处理。于是研究者设计使
用平滑技术,来处理稀疏数据的难题,但稀疏数据始终是机器学习面临的
挑战。机器学习方法相对于规则方法的一个改进在于可移植性,理论上,
同一个模型在不做任何修改的情况下,可以应用于任何领域的命名实体识
别任务。但实践证明,这种迁移并不能保证识别的效果。比如Ciaramita
和Altun(2005)研究发现在CONLL2003
评测的路透社新闻语料上训练的模型,在来源相同的路透社语料上进行评
测,F值可以达到0.908,但在华尔街杂志语料上评测,F值骤降为0.643[3
7]。
第2章基于双语平行语料的汉语命名实体训练语料自动构建
2.1引言
虽然有不少关于半指导或无指导机器学习的方法被提出,旨在利用
少量的标注样本以及大规模的未标注数据来训练命名实体识别模型,也取
得了不错的效果[43],但本文从另外的角度解决上述问题,采用自动生成
大规模语料库的方法来提高汉语命名实体识别模型的性能。由于汉语缺少
大小写信息,以及汉语分词引入的错误,汉语命名实体识别的难度远大于
英语命名实体识别,现存的英语命名实体识别系统效果普遍好于汉语上的
系统。幸运的是,通常应用于机器翻译任务的大量中英双语平行语料提供
了一座从英语命名实体到汉语命名实体的桥梁。通过词汇的对齐,英语命
名实体的信息(包括边界和类型)可以被映射到汉语中,用来标注汉语的
命名实体。本文中,我们利用现有的一个英语命名实体识别系统和平行语
料自动地生成大规模的汉语命名实体识别语料。
2.2相关工作
An等(2003)[100]和Whitelaw等(2008)[101]利用搜索引擎检索
网络文本资源来生成命名实体识别训练语料。他们利用一些种子实体,在
搜索引擎中检索,获取包含这些实体的句子。An将这些句子直接作为训练
语料,构建了一个韩语命名实体语料库,并且在其上训练的模型得到了与
人工标注语料相近的结果。Whitelaw则利用这些句子以及网页HTML结构等
信息获取模板,然后利用模板抽取更广泛的命名实体训练实例。这种方
的不足之处在于种子集合的构建同样是比较耗费人力物力的。Richman和S
chone(2008)[102]、Nothman等(2008,2013)[103,104]
以及Ling和Weld(2012)[14]运用了类似的方法从维基百科生成命名实体
识别语料。他们首先将维基百科上的文章进行分类,比如分为人名、地名
、机构名和其他。然后利用文章之间的链接关系,将锚文本进行标注,从
而获得命名实体训练语料。但文章分类时同样需要事先花费人力来构建一
些种子。
第3章基于自学习的开放域命名实体边界识别
40
3.1引言40
3.2相关工作41
第4章基于多信息源的开放域命名实体类别获取
57
4.1引言57
4.2相关工作58
4.2.1基于模式匹配的方58
第5章
基于词汇分布表示的开放域命名实体类别层次化
..75
5.1引言75
5.2相关工作76
5.2.1语义层次化相关工作76