文档详情

【2017年整理】谷歌的工作原理.ppt

发布:2017-01-29约1.98千字共9页下载文档
文本预览下载声明
Google是如何工作的 讲解人员:X X 日 期:2011年01月17日 Google工作的基本原理 工作原理 (一)搜集资讯:搜索引擎靠机器人程式 (spider)处理网站资料的收录工作 (二)整理资讯:搜索引擎整理资讯的过程 称为「建立索引」,搜索引擎不仅要 保存搜集起來的资讯,还要將它们按 照一定的规则进行编排 (三)接受查询:用戶向搜索引擎发出查询, 搜索引擎接受查询并向用戶返回资料 Google工作原理实例演示(一) Google工作原理实例演示(二) Google工作原理实例演示(三) Google工作原理实例演示(四) Google工作原理实例演示(五) Google工作原理实例演示(六) 谢谢您的收看 播放结束 由于本人水平十分的有限和时间的仓促, 谷歌搜索引擎内幕的具体技术细节: Google的页面级别(PageRank), Google Update 和 Dance的排名算法规则等 没有详细的介绍。 欢迎您提出宝贵意见,非常乐意与您进行交流和学习。 * * 你写了篇博客,发了个评论,对 网站进行了更新或者添 加内容到网上 Google的网络蜘蛛爬取整个网络, 包括你发布的内容 一旦爬取后,页面会在几秒内被 索引 Google还可以通过博客的ping命令或者 Xml sitemap来找到你的网站 从高权威性的网站获得越多外链, 则这些网页获得越高的权威性 如果到你网站的外链有nofollow标签, Google不会通过这些连接爬取你的 网站 如果你通过robot.txt告诉Google别 爬取的网站,Google将不会爬取 Google网络蜘蛛跟随连接进行爬取, 如果你的网站没有外链,那么你的 网站不会进行常规和深度爬取 爬取没有nofollow标签的连接 网页内容存储在一个逆索引 (reverse index)中 网页标题 和连接数 据存在一 个索引 中,用于 宽泛竞争 激烈的 搜索 网页内容 存在另外 一个索引 中,用于 不常见或 长尾关键 字的搜索 当你通过Google搜索时,不是搜索实现的 网络,而是搜索Google的不断更新的 Google根据连接评估域名和网页 总体的权威性 网页根据编辑政策被再次检查 同时网页被分割成很多数据块, 用户搜索时将使用这些数据 Google的搜索质量团队和反垃圾 团队反复评估和完善算法 1万远程测试者对他们的搜索 质量进行评分 Google从用户收集网页 垃圾报告数据 Google根据DMCA的通知剔除 侵权的内容 用户使用Google搜索 Google根据用户键入的字母或 词语提供关键字建议 Google将相似的同义词包含在 查询中 产生初步的搜索结果 Google可能会找到超过百万 的搜索结果,但最终显示出 来的可能只有1000条 (或少于1000条) 搜索结果本地化:本地网站在 搜索结果中将被优先推介 根据权威性和PageRank 对搜索结果进行排序 同时移除重复内容 Google根据关键字、广告 匹配类型和用户所在地 找到相关广告 广告必须遵循相关政策和规定 关联的广告根据潜在收入 进行排序(根据竞标价格和 广告质量打分) 如果关键字搜索量很少 或者点击量很少,广告 可能自动被停止 广告发布者如果不遵守 相关规则,账号将被禁止 大型或受欢迎的广告, 比如,可能 会有折扣 对大多数广告发布者来说,预先 已经创建了广告内容,但有时与关键字 相关的动态内容也会显示给用户 有些广告可能显示扩展内容, 类似site links,电话号码, 产品链接,所在地等。 对内容进行过滤 如果广告有足够高的转化率, 广告可能会被显示在搜索结果上端 其他的广告显示在右侧 对内容进行过滤 对于通用搜索来说,如果Google认为新闻搜索、 购物搜索、视频搜索、书籍搜索、本地搜索或 其他任何垂直搜索的结果和你查询的关键字有关, 他们可能会直接将这些搜索结果混合显示给用户。 个性化搜索:用户曾经访问过的 网站通常会被优先推荐 过度(excessive)或者刻意SEO的 锚文字可能会从搜索结果中移除 链接间的互联:如果网页被高排名网站 链接,那么这些网页排名将靠前 趋势:如果搜索关键字被大量搜索或最近有 很多相关的新闻,Google可能会倾向于最新的结果 如果同一个域名返回多个高排名的结果, 会被整合在一起显示给用户 显示不带广告的搜索结果 其他的广告显示在右侧 生成用户看到的搜索结果页面, 所有的这一切都在一秒内完成, 每天搜索超过3亿次, 每年为Google产生200亿美元的收入 显示不带广告的搜索结果
显示全部
相似文档