Web信息采集系统设计及实现.doc
文本预览下载声明
基于主题的Web信息采集系统的设计与实现
李盛韬,赵章界,余智华
(中国科学院计算技术研究所 软件研究室,北京 100080)
摘 要:基于主题的Web信息采集是信息检索领域内一个新兴而有实用价值的方向,也是信息处理技术中的一个研究热点。本文分析了主题Web信息采集的基本问题,提出了难点以及相关的解决方案,并在此基础上设计实现了“天达”主题Web信息采集系统。
关键词: 信息采集;信息检索;信息处理;主题
Email: lishengtao@ ; zhaozj@ ; yzh@
中图分类号:TP391 文献表示码:A
基金资助:中科院计算所领域前沿青年基金资助(资助8 )2000年7月,21亿[1][2],这使得页面的失效率非常地巨大。Selberg和Etzioni在1995年的调查发现,通过Internet中最常用的一些搜索引擎查询到的结果URL中,14.9%的目标页面已经失效了[5]。一个好的缓解办法就是采用主题采集,通过减小采集页面的数量,从而减小刷新一遍的时间,进而减小已采集页面的失效率。
传统的信息采集需要采集的页面数量十分巨大,这需要消耗非常多的系统资源和网络资源,而对这些资源的消耗并没有换来采集到页面的较高利用率,事实上,它们中有相当大的一部分利用率很低。基于主题的采集有效地提高了采集到页面的利用效率。
为此,我们开展了主题Web信息采集技术的研究,并设计实现了“天达”主题Web信息采集系统。全文的组织是这样的:第二章介绍主题Web信息采集的基本问题;第三章给出了“天达”主题Web信息采集系统的结构模型以及相关细节;在第四章里,我们给出了该系统的实现情况;最后,在第五章里展望了主题Web信息采集发展的动向。
2.基于主题的Web信息采集的基本问题
2.1基于主题的Web信息采集的定义
在Web信息采集的大家庭中,有一类非常重要,它就是基于主题的Web信息采集(Focused Crawling),也称为Topic-Specific Crawling,主要是指选择性地搜寻那些与预先定义好的主题集相关的页面进行采集的行为。
2.2基于主题的Web信息采集的分类
2.2.1广泛主题和具体主题的Web信息采集
按照采集主题的范围和规模,基于主题的Web信息采集可分为广泛主题的Web信息采集和具体主题的Web信息采集。
广泛主题是指那些涵盖面较宽,并且和其他主题相比有较强的独立性的一类主题。广泛主题的Web信息采集也称作领域Web信息采集。一般这类信息采集所需要采集的页面数量较多,为了达到较高的召回率,在进行URL过滤的时候所设定的阈值较低、限制较宽,因此它的页面内容也相对较杂。与之相对应,具体主题涵盖面较窄,意义较明确,采集规模也较小,一般进行URL过滤的时候所设定的阈值较高、限制较严。这类采集一般可直接服务于用户,提供更加灵活、针对性更强的服务。
2.2.2固定主题和可变主题的Web信息采集
按照采集时能否指定主题,基于主题的Web信息采集分为固定主题的Web信息采集和可变主题的Web信息采集。
顾名思义,固定主题的Web信息采集在采集前和采集的过程中都不能进行主题的变更。它一般是针对广泛主题和领域搜索引擎的,不直接服务于用户。可变主题的Web信息采集是指用户在采集前可设定采集主题、在采集过程中可改变主题的一种采集方式。这类采集往往设定的主题较具体,采集页面的规模也较小,提供给用户的操作方式比较灵活。另外,多个此类信息采集器进行合作,分别采集不同的主题,能够完成一些更高级和复杂的服务。
2.3主题页面在Web上的分布特征
整个Web上的页面主题分布是混杂的,但同一个主题在Web上分布却有一些规律。我们将这些分布规律总结为四个特性:Hub特性、Sibling/Linkage Locality特性、站点主题特性、Tunnel特性。
2.3.1 Hub特性
美国康奈尔大学的教授Jon M. Kleinberg发现Web上存在大量的Hub页面,这种页面不但含有许多outlink链接(指出链接),并且这些链接趋向于相关同一个主题。也就是说,Hub页面是指向相关主题页面的一个中心。另外,他还定义了权威页面(authority)的概念,即其它许多页面都认为相关于这一主题有价值的好页面。好的Hub页面一般指向多个Authority的页面,并且所指向的Authority页面越权威Hub页面的质量也越好;反过来,Hub页面的质量越好,它所指向的每个页面也趋向于越权威。我们把主题在Web上的这一特性称为Hub特性。
2.3.2 Sibling/Linkage Locality特性
在Hub特性的基础上,人们又提出了Sibling/Linkage Locality特性[1]。1).Link
显示全部