文档详情

基于Internet的全文搜索引擎的模型设计 毕业论文.doc

发布:2016-05-10约7.99千字共11页下载文档
文本预览下载声明
基于Internet的全文搜索引擎的模型设计 摘 要 根据搜索引擎与信息获取的原理,设计了一个基于Internet的全文搜索引擎,该模型从技术上可以适用于任何有全文搜索需求的应用,并且由于基于Java语言设计,从而特别适于跨平台应用。该模型还采用了数据库管理作业和多线程技术,从而使全文搜索的性能和效率得到了进一步的提高。 关键词 : 搜索引擎;网络蜘蛛;分析器;索引 中图分类号: 文献标识码:A 目录 摘要……………………………………………………………………2 目录……………………………………………………………………3 一、引言………………………………………………………………4 二、搜索引擎系统分析………………………………………………4 三、搜索引擎系统模型………………………………………………4 3.1从互联网上抓取图片……………………………………………5 3.2建立索引数据库 ……………………………………………… 5 3.3在索引数据库中搜索……………………………………………6 3.4对搜索结果进行处理排序………………………………………6 四、模型的组成结构…………………………………………………7 五、搜索引擎实现机制………………………………………………9 5.1网络蜘蛛的实现机制……………………………………………9 5.2全文检索的实现机制……………………………………………10 5.2.1索引过程……………………………………………………10 5.2.2检索过程中的结果显示……………………………………10 六、结论………………………………………………………………11 参考文献………………………………………………………………12 指导老师点评…………………………………………………………13 一、 引言 随着计算机技术和互联网技术的飞速发展,信息获取已经从手工获取,到计算机信息获取,以及到现在的通过网络进行信息获取。利用互联网,用户一方面可以快速、方便地接触到各种信息,但是另一方面通过普通浏览的方式很难在信息的海洋中找到真正需要的信息。要在浩如烟海的网络世界寻找需要的信息,作为现代信息获取技术的主要应用——搜索引擎(Search Engine)是必不可少的。中国互联网络信息中心(CNNIC)在京发布的“第十四次中国互联网络发展状况统计报告”显示, 搜索引擎是用户在互联网上获取信息最主要的方式。又由于搜索引擎有大量的用户,有很好的经济价值,所以引起了世界各国计算机科学界和信息产业界的高度关注,目前的研究、开发十分活跃,出现了很多值得注意的动向。 二、 搜索引擎系统分析 搜索引擎通常指的是基于Internet的搜索引擎,其作用是检索Web的内容。它们收集因特网上上亿个网页,并且每一个网页上的每一个词都被搜索引擎所收录,也就是我们所说的全文检索。 在构造搜索引擎时,布尔模型是用得最普遍的模型。在布尔模型中,一个文档通过一个关键词条的集会来表示,这些词条都来自一个词典。一个查询是由一些通过逻辑操作符号(如AND、OR和NOT)连接起来的关键词所组成。在查询与文档匹配的过程中,主要看该文档中的词条是否满足查询的条件。搜索引擎主要由网络蜘蛛(WebSpider)、索引(Index)与搜索(Search)引擎软件等部分组成。其实现原理,可以看作四步:从互联网上抓取网页(Data Gathering)→建立Web内容索引数据库(Index creation)→在索引数据库中搜索(Search interface)→对搜索结果进行处理和排序(Data display)。 三、 搜索引擎系统模型   下面给出基于Internet的全文搜索引擎系统架构图,搜索引擎的各部分都会相互交错相互依赖。其处理流程按照如下描述: 图 1 基于Internet的全文搜索引擎系统架构 3.1 从互联网上抓取网页 “网络蜘蛛”依据一定的网络协议在互联网中抓取、加工、整理网页,把网页送入“网页数据库”,从网页中“提取URL”,把URL送入“URL数据库”,“蜘蛛控制”得到网页的URL,控制“网络蜘蛛”抓取其它网页,反复循环直到把所有的网页抓取完成。 在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先(本文模型采用的是广度优先)。广度优先是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。两种策略的区别,下图的说明会更加明确。 图 2 网络蜘蛛抓取网页的两种策略的区别 3.2 建立索引数据库 ??? 系统从“网页数据库”提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的词条算法进行大量复杂计算,得到每一个网页针对页
显示全部
相似文档