文档详情

seo工作原理资料.pptx

发布:2020-02-25约6.59千字共26页下载文档
文本预览下载声明
SEO(二) --搜索引擎工作原理主讲人:马迎迎搜索引擎工作原理搜索引擎发展历史1搜索引擎分类2搜索引擎工作原理3搜索引擎介绍4退出搜索引擎的发展历史第一阶段是以词频搜索为原理开发的,汇总互联网高频词汇进行信息检索。第二阶段是以“超链分析”技术为核心的,分析网页链接相关度。第三阶段是以竞价排名商业模式为显著特征的,对搜索排序进行排名干预。第四阶段是以互动社区为基础的搜索引擎,随着人们对信息需求的增长,必 然要依靠其他用户的力量来满足,而社区化能很好地满足这一需求。第五阶段?我想应该是基于概念的搜索,还需要市场的验证。 详情请查看:/wl2009/new-131.html返回搜索引擎分类搜索引擎分类目录搜索引擎全文搜索引擎国外最具代表性的全文搜索引擎有:Google、Yahoo、AllTheWeb、AltaVista、Inktomi等;国内比较著名的有百度等元搜索引擎最具代表性的莫过于雅虎了(雅虎通过轮番的并购和持续的研发,已经跻身顶尖全文搜引擎行列),其他的还有ODP(即DMOZ)、LookSmart、About等著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等返回全文搜索引擎它通过从互联网上提取各网站的信息而建立数据库,再从这个数据库中检索与用户查询条件匹配的相关记录,最后把这些记录按照一定的排列顺序返回给用户。从搜索结果来源的角度,全文搜索引擎拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用。返回元搜索引擎元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。在搜索结果排列方面,有的直接按照来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo.返回 目录搜索引擎目录搜索引擎虽然具备搜索功能,但严格地说并不是搜索引擎,仅仅是按照类别用户展示相关网站列表的普通网站而已。除了这三大类搜索引擎外,还有以下几种非主流形式的搜索引擎(1)集合式搜索引擎:类似于元搜索引擎,区别在于不是同时调用多 个引擎进行搜索,而是让用户从提供的引擎中选择, 如HotBot在2002年底推出的搜索引擎。(2)门户搜索引擎:虽然提供服务,但自身既没有分类目录也没有网页数据 库,其搜索结果完全来自其他引擎,如AOL Search、 MSN Search等(3)免费链接列表:也就是常见的链接交换系统,这类网站一般只简 单的排列出网站的链接条目,少部分有简单的分 类目录,不过规模比起雅虎等分类目录要小得多返回搜索引擎工作原理搜索引擎优化的主要任务之一就是提高网站的搜索引擎友好性,因此,搜索引擎优化的每个环节都与搜索引擎存在必然的联系,研究搜索引擎优化实际上是对搜索引擎工作过程的逆向推理。所以学习搜索引擎优化应该从了解其工作原理开始。搜索引擎的主要工作包括:1、页面收录2、页面分析3、页面排序4、关键字查询返回搜索引擎对页面的收录搜索引擎收录页面实际上就是在互联网上进行数据采集,这是搜索引擎最基础的工作。搜索引擎的数据采集能力直接决定搜索引擎可提供的信息量及对互联网覆盖的范围,从而决定搜索引擎的质量。因此,搜索引擎总是想方设法地提高其数据采集能力。1、页面收录流程2、页面收录原理3、页面收录方式4、如何避免重复性收录5、页面维护方式6、页面存储返回页面收录流程如右图所示搜索引擎抓取页面的简单流程URL是页面的入口,而域名是网站的入口。搜索引擎要在互联网上抓取到页面的首要任务就是建立一个足够大的域名列表,再通过域名进入相应的网站,从而抓取页面。那么对于网站来说,如果想要被搜索引擎收录,首要条件就是加入搜索引擎的域名列表。下面介绍两种常用的加入搜索引擎域名列表的方法。第一:利用搜索引擎提供的网站登录入口,向搜索引 擎提交网站域名,例如:Google的登录地址是 /intl/zh-CN/add_url.html/intl/zh-CN/add_url.html (做法较被动,从域名提交到网站被收录花费的 时间较长)第二:通过与外部网站建立链接关系,使搜索引擎可 以通过外部网站发现我们的网站,从而实现对 网站的收录。(主动权在我们手里,收录速度 快,一般2—7天就会被收录)URL列表抓取页面存储提取URL原始页面返回页面收录原理URL列表存储原始页面抓取页面提取URL域名URL内部URL如果把网站页面组成的集合看作是一个有向图,从指定的页面出发,沿着页面中的链接,按照某种特定的策略对网站中的页面进行遍历。不停地从URL列表中移出已经访问过的URL,并存储原始页面,同时提取原始页面中的URL信息;再将URL分为域名及内部URL两大类,同时判断URL是否被访问过,将未访问的URL
显示全部
相似文档