信息抽取及其应用.ppt
文本预览下载声明
信息抽取及其应用研究 一、信息抽取概述 信息抽取(Information Extraction: IE)是指从一段文本中抽取指定的一类信息(例如事件、事实),井将其形成结构化的表示形式(比如数据库等),以供用户查询使用的过程。 它是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。 /rmrb/html/2009-11/09/node_1922.htm MUC和ACE 消息理解系列会议(Message Understanding conference, MUC)和自动内容抽取评测会议( Automatic Content Extraction, ACE)对推动信息抽取技术的发展起到重要作用。 MUC由美国海军情报部门提出举行,主要目的也是处理大量海军军事情报,从1987年开始到1998年,MUC会议共举行了七届。ACE是由美国国家标准技术研究所( NIST)组织召开,该会议2001年5月首次举办,到2007年已经举办7次会议。 /related_projects/muc/ http://gate.ac.uk/ http://gate.ac.uk/download/index.html 邓尚民,孙玉伟.国内外信息抽取研究的义献计量分析.图书情报工作,2006(12):92-94,108 二、Web信息抽取 Web信息抽取就是从Web页面所包含的无结构或半结构的信息中识别用户感兴趣的数据,并将其转化为结构和语义更为清晰的格式(XML、关系数据、面向对象的数据等)。 整个抽取过程的工作过程主要包括了如下几个步骤: ①将Web网页进行预处理。 ②用一组信息模式描述所需要抽取的信息。 ③对文本进行合理的词法、句法及语义分析。 ④使用模式匹配方法识别指定的信息模式的各个部分。 ⑤进行上下文分析和推理,确定信息的最终形式。 ⑥将结果输出成结构化的描述形式以便由网络集成系统进行查询分析。 Web信息抽取的中心—包装器 Web信息抽取工作主要由包装器(Wrapper)来完成。 包装器是一种软件过程,这个过程使用已经定义好的信息抽取规则,将网络爬虫搜集到的Web页面的信息数据抽取出来,转换为用特定的格式描述的信息。 一个包装器被认为是一个程序或是理解某一具体信息源的一种规则,并把信息转化为较为规则的格式,如XML或关系表格。包装器是特定的对某一个给定的网站,紧密地与抽取的网页结构和标记语言相联系的。包装器最具挑战性的方面就是能从许多不相关的文本中识别所要抽取的信息。 研究内容 Web信息抽取原理与方法 基于本体的信息抽取 基于位置的信息抽取 Web信息抽取模型 基于归纳学习的信息抽取 基于ontology的信息抽取 基于HMM(隐马尔可夫模型)的信息抽取 研究内容(续) Web信息抽取技术 模糊字符匹配技术 信息树技术 二相取样技术 Web信息抽取的评价 信息抽取结果的评价 信息抽取系统的性能评价(信息抽取任务的难易程度、系统所使用的技术、系统的自动程度) 应用实例 Amorphic系统 Amorphic系统是一个集成了基于位置信息抽取、基于本体的信息抽取和包装器能修复的特性的信息抽取系统。它能在学习领域知识和网页结构的基础__卜定位感兴趣的数据,能自动地生成一个包装器,能探测到网页结构的变化,然后能在了解变化的基础上获取想要的信息。 Lixto系统 Lixto系统能生成包装器将html转换为xml格式,通过提供完全可视和交互的界面,利用侧向外延生长法,半自动地帮助用户产生包装器。它提供两种基本的数据抽取规则,字符抽取和信息树抽取。 郑彦宁,邓擘.信息抽取技术在情报学中的应用分析.情报理论与实践,2008(5):769-772 目前信息抽取的关键技术主要有实体识别、实体关系识别和事件模板构造3个方面。 实体识别技术:实体是指在现实世界中具体或抽象的对象,而识别出这些对象在文本中的表达形式则为实体识别技术。在该技术中不仅要识别并标注出一般的命名实体,如人名、地名、机构名、产品名称等,还包括一些对实体解释性的描述以及指代实体的代词等,有时在具体应用中有关时间和数量表达式也被作为实体来识别。实体识别的方法主要分为基于统计与基于规则的方法。 信息抽取技术 实体关系识别技术 实体关系识别技术是识别句子中出现的成对实体间的关系。例如当句子中出现一个人名和一个组织实体名称时,那么这个人与组织之间是何种关系需要辨别;当出现机构名称和地名时,这两者之间又具有何种关系;如果出现两个人名时,这两人之间具有何种社会关系等。 在ACE评测中,对这些关系进行了归纳,把所有关系划分为角色关系、部分与整体的关系、位
显示全部