文档详情

Web信息抽取研究综述.doc

发布:2018-03-12约4.81千字共7页下载文档
文本预览下载声明
Web信息抽取研究综述   摘要:随着互联网技术的快速发展,Web信息呈现爆炸性增长,人们发现用信息检索的方法不能及时的得到想要的信息,于是出现了信息抽取。在回顾Web信息抽取基本理论的基础上,该文对Web信息抽取技术进行较全面的综述,通过分析信息抽取的概念、信息抽取的类型和功能等进行介绍,以此有助于本研究继续向前发展。   关键词:Web信息抽取;信息抽取技术;信息检索;综述   中图分类号:TP311文献标识码:A文章编号:1009-3044(2011)10-2279-02   The Summarize of Web Information Extraction Research   CUI Chun, GONG Jie   (School of Computer Science, Southwest Petroleum University, Chengdu 610500, China)   Abstract: Along with the rapid development of Internet technology, People with information retrieval method found not timely desired information, and then appeared information extraction. In reviewing the basic theories of Web information extraction, this paper is web information extraction technology of conducted a comprehensive summarize. Through the analysis of the concept of information extraction, types and functions of information extraction, so, it helps this research continues to advance.   Key words: Web information extraction; technology of information extraction; information retrieval; summarize   随着internet的快速发展,人们获得信息的方式越来越多,但是怎样快速的从海量信息中获得自己想要的信息已成为信息工作者研究的重点。在此背景下出现了传统的Web信息抽取,信息过滤等网络信息抽取系统。目前80%的网页属于隐藏网页(此类网页是由后台数据库生成),而搜索引擎无法从此类网页中获取数据,信息抽取能抽取出这些数据并以结构化的形式存储起来供以后使用。   1 WEB信息抽取概念、发展及功能   1.1 Web信息抽取的概念及功能   信息抽取其实质就是从无结构或者半结构的信息中识别出用户感兴趣的内容,然后将抽取出的结果转换为更结构化、语义更清晰的数据格式(XML、关系数据、面向对象的数据等)。信息抽取技术其实是一种文本处理技术,其目的是根据预定义的信息,从自然语言文本中抽取出特定的信息,并将其以结构化的形式存储在数据库中供用户查询使用。信息抽取不仅帮助人们快速的、深入的得到需要的信息,还能将抽取出的信息进一步用于数据挖掘、文本生成、情报检索等后续信息处理。信息抽取过程如图1所示。   图1 信息抽取过程图   1.2 Web信息抽取的发展   随着信息抽取技术的发展,国内外出现了一些典型的信息抽取系统,如基于自然语言处理(Natural Language Processing, NLP)方式的信息抽取系统有RAPIER, SRV, WNISK;基于包装器(Wrapper)归纳方式的信息抽取系统有STALK-ER, SOHTMEALY, WIEN;基于HTML结构的信息抽取系统有LIXTO等。但是各种信息抽取工具的分类方式并不是一成不变的,有些工具可以同时属于其中的两种或多种类型。信息抽取技术应用在中文方面的研究起步比较晚,其主要的工作集中在研究中文命名实体的识别方面,在中文信息抽取系统的设计研究方面还处于摸索阶段。   2 现有的Web信息抽取方法   2.1 人工获取规则处理方式的信息抽取   人工获取规则处理方式的信息抽取是技术人员依靠自身的知识,通过审阅某些待处理的文本文档,总结出相关信息出现的规律,再根据信息抽取系统内部的抽取规则格式表达出相关的抽取规则。由此可见,这种抽取系统的性能决定于技术人员在这一领域的知识技能水平如何。另外,如果web页面的内容与格式发生变化或者出现新一
显示全部
相似文档