文档详情

搜索引擎简单小论文.doc

发布:2017-04-06约2.1千字共5页下载文档
文本预览下载声明
浅谈搜索引擎 搜索引擎 搜索引擎分类 工作原理 信息检索 未来趋势 搜索引擎指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。其工作作原理分为抓取网页,处理网页和提供检索服务。 抓取每个独立的搜索引擎都有自己的网页抓取程序,它顺着网页中的超链接,连续地抓取网页。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。 一、搜索引擎分类 搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。全文搜索引擎是广泛应用的主流搜索引擎,国外代表有Google,国内则有著名的百度 、谷歌、搜搜等。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户 查询条件相匹配的记录,按一定的排列顺序返回结果目录索引也称为分类检索,是因特网上最早提供WWW资源查询的服务,主要通过搜集和整理因特网的资源,根据搜索到网页的内容,将其网址分配到相关分类主题目录的不同层次的类目之下,形成像图书馆目录一样的分类树形结构索引。目录索引无需输入任何文字,只要根据网站提供的主题分类目录,层层点击进入,便可查到所需的网络信息资源。 元搜索引擎接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。 垂直搜索引擎为2006年后逐步兴起的一类搜索引擎。不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索等等),在其特定的搜索领域有更好的用户体验。相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。 集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择, 门户搜索引擎自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎 第一步:爬行 搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛网上爬行一样,所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容。 第二步:抓取存储 搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行。 第三步:预处理 搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。 提取文字中文分词去停止词消除噪音 搜索引擎需要识别并消除这些噪声,比如版权声明文字、导航条、广告等5.正向索引6.倒排索引7.链接关系计算8.特殊文件处理 除了HTML 文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我们在搜索结果中也经常会看到这些文件类型。第四步:排名 用户在搜索框输入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程与用户直接互动的。但是,由于搜索引擎的数据量庞大,虽然能达到每日都有小的更新,但是一般情况搜索引擎的排名规则都是根据日、周、月阶段性不同幅度的更新。 +”号和“-”号,用好这些命令符号可以大幅提高我们的搜索精度。 三、精确匹配搜索。 发展到现今这个阶段,搜索引擎技术和商业经营模式已经处于一个成熟和相对稳定状态 搜素引擎经过多年的发展后,功能越来越强大,提供的服务也越来越多样化。目前搜索引擎已达数千种行业竞争也越来越激烈。搜索引擎服务从提供单一的文字、图片搜索,向提供音乐、视频、资讯、软件、文件等多元化的搜索发展,并且呈现进一步的分化。搜索引擎提供更具有个性化和智能化的针对性搜索。中国普通网民移动化的浪潮已经存在,随着手机等移动工具的使用,搜索引擎为我们提供的移动搜索也将进一步发展。社区搜索整合的目标是为用户提供一站式服务,比如在Facebook、QQ里搜索与某个用户相关的内容,依托社区网友的内容,可以实现更准确的搜索,其目标就是为了用户提供一站式的服务。 一、搜索细化搜索条件。给出的搜索条件越具体,搜索引擎返回的结果也会越精确。 二、用好搜索逻辑命令。搜索引擎基本上都支持附加逻辑命令查询,常用的是“+”号和“-”号,用好这些命令符号可以大幅提高我们的搜索精度。 三、精确匹配搜索。 高效的检索可以让用户快速准确地找到目标信息,从而更有效地促进产品/服务的销售,而且通过对网站
显示全部
相似文档