《大词林》中实体类型获取及层次化构建方法.pdf
文本预览下载声明
《大词林》 中实体类型获取及层次化
构建方法
哈尔滨工业大学计算机学院
秦兵
2015.11.9 湖北宜昌
哈⼯⼤社会计算与信息检索研究中⼼
《大词林》构建缘起
哈⼯⼤社会计算与信息检索研究中⼼
哈⼯⼤社会计算与信息检索研究中⼼
背景
n 命名
l 本质是区分事物
l 具有不同的粒度
n 姚明
n 阿司匹林
n 命名实体识别
l 识别⽂本中事物的名称并分类
乔布斯 创⽴ 了 苹果 公司 。
哈⼯⼤社会计算与信息检索研究中⼼
哈⼯⼤社会计算与信息检索研究中⼼
背景
n MUC-6(1995)⾸次提出命名实体识别任务
l 实体名:⼈名、地名、机构名
传统
l 时间表达式 命名实体
l 数字表达式
n :
缺陷 实体类型太局限,不能满⾜实际需求
l 如开放域问答
n ⼩孩感冒吃什么药⽐较好?
哈⼯⼤社会计算与信息检索研究中⼼
哈⼯⼤社会计算与信息检索研究中⼼
背景
n 关于更⼲泛类别命名实体识别的研究
l ACE-2007 7 45
: ⼤类, ⼩类
l Sekine Nobata 2004 200
和 ( ): 类
l Sekine 2008 150
( ): 类
l Ling Weld 2012 112
和 ( ): 类
l Yosef 2013 505
等( ): 类
l ……
l 类别均为事先定好的,仍为分类问题
哈⼯⼤社会计算与信息检索研究中⼼
哈⼯⼤社会计算与信息检索研究中⼼
背景
n 开放域实体
l 类别更多,且不限定
n 药品名:阿司匹林、双⻩连⼝服液;
n 20
会议名: 国集团伦敦峰会、中央经济⼯作会议;
n 《 》 《 》
电影名: 泰囧 、 苹果 ;
n ……
l 类别更细,且有层次
n 球队名:达拉斯⼩⽜队、国际⽶兰;
机
n 企业名:微软、中⽯油;
构
名 n ⾼校名:哈尔滨⼯业⼤学、⿇
显示全部