文档详情

《大词林》中实体类型获取及层次化构建方法.pdf

发布:2017-05-27约1.35万字共48页下载文档
文本预览下载声明
《大词林》 中实体类型获取及层次化 构建方法   哈尔滨工业大学计算机学院 秦兵 2015.11.9 湖北宜昌 哈⼯⼤社会计算与信息检索研究中⼼ 《大词林》构建缘起 哈⼯⼤社会计算与信息检索研究中⼼ 哈⼯⼤社会计算与信息检索研究中⼼ 背景 n  命名 l  本质是区分事物 l  具有不同的粒度 n  姚明 n  阿司匹林 n  命名实体识别 l  识别⽂本中事物的名称并分类 乔布斯 创⽴ 了 苹果 公司 。 哈⼯⼤社会计算与信息检索研究中⼼ 哈⼯⼤社会计算与信息检索研究中⼼ 背景 n  MUC-6(1995)⾸次提出命名实体识别任务 l  实体名:⼈名、地名、机构名 传统 l  时间表达式 命名实体 l  数字表达式 n  : 缺陷 实体类型太局限,不能满⾜实际需求 l  如开放域问答 n  ⼩孩感冒吃什么药⽐较好? 哈⼯⼤社会计算与信息检索研究中⼼ 哈⼯⼤社会计算与信息检索研究中⼼ 背景 n  关于更⼲泛类别命名实体识别的研究 l  ACE-2007 7 45 : ⼤类, ⼩类 l  Sekine Nobata 2004 200 和 ( ): 类 l  Sekine 2008 150 ( ): 类 l  Ling Weld 2012 112 和 ( ): 类 l  Yosef 2013 505 等( ): 类 l  …… l  类别均为事先定好的,仍为分类问题 哈⼯⼤社会计算与信息检索研究中⼼ 哈⼯⼤社会计算与信息检索研究中⼼ 背景 n  开放域实体 l  类别更多,且不限定 n  药品名:阿司匹林、双⻩连⼝服液; n  20 会议名: 国集团伦敦峰会、中央经济⼯作会议; n  《 》 《 》 电影名: 泰囧 、 苹果 ; n  …… l  类别更细,且有层次 n  球队名:达拉斯⼩⽜队、国际⽶兰; 机 n  企业名:微软、中⽯油; 构 名 n  ⾼校名:哈尔滨⼯业⼤学、⿇
显示全部
相似文档