文档详情

基于WEB资源的信息抽取技术-上海交通大学图书馆.doc

发布：2017-01-15约字共6页下载文档

文本预览下载声明

基于WEB资源的信息抽取技术郭志红（上海交通大学情报研究所，上海200030）　 web资源含有大量的有用信息，但由于它们欠结构化，不能为传统的数据库型查询系统所利用。如何将这些信息抽取出来，转化成结构化信息，供其它信息集成系统所利用，成为该顶域的研究热点。本文介绍了一个简单的web信息抽取模型，对基于该模型的wrapper归纳技术进行了探讨，并描述了一个wrapper自动生成系统的原型。关键词信息抽取 wrapper归纳技术自动生成原型系统 The Technology of Information Extraction for WEB Resource Guo Zhihong （Information Research Institute, Shanghai Jiaotong university, Shanghai 200030）　Abstract There is plenty of useful information in web resource. It cant be used by the traditional database query system because it is not well-structured. Recently considerable attention has been received on how to extract it from web resource and transfer it to structured information that can be used by other information integration systems. This paper presents a simple web information extraction model, discusses the technology of wrapper induction based on the model and describes automatic generation prototype system of wrapper. Keywords information extraction wrapper induction automatic generation prototype system 　引言 ??? Internet是一个巨大的信息资源库，它上面有着各种各样的在线信息：天气预报，股票价格，商品目录，政府法规和税收政策，个人爱好，研究报告等等。所有这些web资源信息都有两个共同的特征：（１）文本内容以html形式发布。（２）通过浏览方式或基于格式的查询方式来实现对其内容的存取。由于html标记更关注字体大小，颜色，位置等，而文档的结构却隐含在这些标记中，故html页中的大量信息都是半结构化的。而基于这种半结构化信息的查询，即web查询，与传统的基于结构化信息的数据库查询是不同的，其查询结果往往是互不相关的html页面，而且相同的查询往往得到的是不同的结果。故要直接查询页面上的精确信息显得十分困难。为了解决这个问题，需要针对各种类型的web资源集构建相应的wrapper，利用该wrapper 去抽取html页中的半结构化信息，并转化成结构化数据，供其它信息集成系统利用。由于网上新资源的频繁加入，现存的资源格式又经常变化，手工构建wrapper将极其乏味而且容易出错。因此，开发出自动构建wrapper的技术及其系统则是该顶域的发展趋势。 web信息抽取模型　　一个简单的web信息抽取模型可概括为：向特定资源库发出一个查询请求，得到相应的响应页，然后wrapper从响应页中抽取出所需要的信息，将其映射成相应的标记信息，如图１所示。　Q是以查询语言Q.构造的查询表达式，表达了用户所需要的信息。它可能是SQL或KQML语句，也有可能是CGI脚本参数所组成的语句。P 为查询响应页，可以把它看成是ASCII字符集∑中的字符串，含有一个或多个所需信息的元组（例如，假设我们要抽取的信息为各个国家所对应的电话号码区域号，则具体的〈国家，区域号〉即为一个元组。它有两个属性：国家，区域号。形式地讲，一个元组可表达为一个具有k个字符串属性的向量A1,A2,…,Ak）S为特定的信息资源库，可以看成是一个将查询表达式转化成响应页P的函数。L为标记信息集，一个标记信息集L就是一个响应页中所要抽取的所有信息元组集合。其形式化表示如下所示：即该响应页中含有│L│0个元组，每个元组具有K0个属性。整数１≤k≤K是属性索引号，而整数１≤m≤∣L∣则是该响应页中的元组索引号，每个bm,k,em,k表示为一个单一的属性集。bm,k是第m个元组的第k个属性在该响应页中的

显示全部

相似文档