基于贪心森林的微博实体链接方法研究-计算机科学与技术专业论文.docx
文本预览下载声明
万方数据
万方数据
Classified Index: TP391.3
U.D.C: 681.37
Dissertation for the Master Degree in Engineering
RESEARCH ON METHODS OF ENTITY LINKING IN MICROBLOG BASED ON GREEDY FOREST
Candidate: Zou Xianqi
Supervisor: Prof. Wang Xiaolong
Academic Degree Applied for: Master of Engineering
Speciality: Computer Science and Technology
Affiliation: School of Computer Science and
Technology
Date of Defence: June, 2014
Degree-Conferring-Institution: Harbin Institute of Technology
哈尔滨工业大学工学硕士学位论文
哈尔滨工业大学工学硕士学位论文
摘 要
实体链接工作已经取得了较多的关注,其工作目的是将文本中的实体指称 链接到知识库中对应的实体。大部分实体链接工作都是针对论坛或者博客的长 文本信息,然而微博作为一种新的社交平台,对这种短文本进行实体链接又会 面临很多问题。迅速地、准确地将微博中的实体指称链接到知识库,是一项有 着十分重要意义的工作。对于科学研究来说,它可以提高机器翻译的准确度、 网页搜索的文档相关度,计算广告中搜索广告的点击率,以及相关领域知识库 构建的准确性。为了将微博中的命名实体链接到无歧义的维基百科知识库中, 本文将实体链接工作具体分为以下 3 个主要部分。
第一部分是微博中的命名实体识别。由于考虑到英文不需要分词的特殊性 质,本文将微博定位为英文微博 Twitter。长文本中命名实体识别常采用基于规 则、基于条件随机场的方法,但这些方法在面向微博的命名实体识别工作中, 效果并不显著。本文采用标注的潜在狄利克雷主题模型,生成实体指称在实体
类别上的先验分布,利用贝叶斯法则得到实体指称属于某个命名实体类别的概 率。将标注的潜在狄利克雷主题模型与条件随机场的预测结果相结合,实验结 果表明,融合后的模型对微博这种短文本进行命名实体识别可以取得较好的效
果。
第二部分是候选实体的生成及其特征提取。生成候选实体常采用基于维基 百科的查询扩展方法,但是这种方法的弊处在于生成候选实体数量过多,会引 入较多有歧义性的候选实体。采用传统的支持向量机模型,对这些候选实体进 行筛选,得到覆盖率较高并且数量较少的候选实体。在特征提取方面,针对微 博短文本的特点,用局部特征和全局特征来刻画候选实体和实体指称,采用实
体链接常用的基本模型对两种类别特征进行全面的分析。 第三部分是候选实体排序。采用基于排序对和基于排序列表的方法对候选
实体进行排序,并且对两种方法进行了分析与比较。针对实体链接中不考虑非 目标实体的排序先后顺序,采用正则化的贪心森林模型解决这一问题。实验结
果表明这种改进后的梯度提升决策树方法,可以有效的提高候选实体排序的效 果。
关键词:候选实体;主题模型;全局特征;正则化的贪心森林
-I-
Abstract
Entity linking has received much more attention. The purpose of entity linking is to link the mentions in the text to the corresponding entities in the knowledge base. Most work of the entity linking is aiming at long texts, such as BBS or blog. Mi- croblog as a new kind of social platform, however, entity linking in which will face many problems. Quickly and accurately linking the mentions into the knowledge base is a very important work. For scientific research, it can improve the accuracy of machine translation, the relevancy of Web search documents, click-through rate of search adverti
显示全部