搜索引擎原理入门课件.ppt
文本预览下载声明
* * * * 衣食住行、学习、工作、娱乐、体育、八卦……内事不决问LP,外事不决问Google * 衣食住行、学习、工作、娱乐、体育、八卦……内事不决问LP,外事不决问Google * * * * * * 通讯、负载平衡问题 * * 衣食住行、学习、工作、娱乐、体育、八卦……内事不决问LP,外事不决问Google * * 衣食住行、学习、工作、娱乐、体育、八卦……内事不决问LP,外事不决问Google * * * * 衣食住行、学习、工作、娱乐、体育、八卦……内事不决问LP,外事不决问Google * 衣食住行、学习、工作、娱乐、体育、八卦……内事不决问LP,外事不决问Google * 衣食住行、学习、工作、娱乐、体育、八卦……内事不决问LP,外事不决问Google * 其他考虑因素 用户访问数目 网页活跃程度 …… 提纲 为什么搜索引擎什么都查得到? 为什么搜索引擎查得那么准? 为什么搜索引擎查得那么快? 搜索引擎靠什么挣钱? 搜索引擎下一步怎么做? 解答 倒排索引技术 计算剪枝技术 缓存技术 并行处理技术 信息索引(indexing)技术 为加快搜索速度,建立特定的数据结构 不可能是逐个文档扫描(太慢) 倒排表、后缀树、签名表等等 大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快 前向索引(Forward index) 文档1:b d a b b c b a d c 文档2:a b c d a c d b d a b 文档1 文档2 a 3 8 b 1 4 c 6 10 d 2 9 a 1 5 b 2 8 c 3 6 d 4 7 5 7 10 11 9 倒排索引(Inverted index) 文档1:b d a b b c b a d c 文档2:a b c d a c d b d a b 文档ID号 偏移位置 dictionary Posting list 计算剪枝技术 并不是所有的网页都会参与计算 用户只看前2页 因此,可以根据某种准则(pagerank)预先刷掉很多网页或者分级 缓存(caching)技术 把常用的放在内存(比如最近的热门话题),加快检索的速度 检索结果缓存 索引缓存 提纲 为什么搜索引擎什么都查得到? 为什么搜索引擎查得那么准? 为什么搜索引擎查得那么快? 搜索引擎靠什么挣钱? 搜索引擎下一步怎么做? 基于搜索引擎的广告技术 搜索引擎广告涉及的各方 搜索引擎用户 搜索引擎公司(广告商) 产品商:购买关键词,竞价 用户点击广告的次数越多,产品商付给广告商的钱也越多。 点击欺诈问题。 提纲 为什么搜索引擎什么都查得到? 为什么搜索引擎查得那么准? 为什么搜索引擎查得那么快? 搜索引擎靠什么挣钱? 搜索引擎下一步怎么做? 用户行为分析及个性化检索 对用户的搜索行为甚至其他行为进行跟踪,从而进行有针对性的检索 使用搜索引擎以后肯定会留下痕迹 点击行为(Click through behavior) FIELD VALUE User ID 1162742023015 Time stamp 06/Nov/2006:00:01:35 Query terms 嫁给警察的理由 URL /dispbbs.asp?Star=4boardid=46id=346721page=1 Page number 1 Rank 7 Anchor text 姑娘们,你们愿意FONT color=#cc0033嫁给警察/FONT吗?[慈溪社区] 眼球动作(通过鼠标轨迹模拟) 更精确的广告投放 搜索引擎公司在这方面投入了巨大的力量 Web作弊与反作弊 Web作弊(Web Spam)是指采取一些迷惑、欺骗搜索引擎的手段,使某些Web页面在检索结果中的排名高于实际应得的排名的行为。 有人估计WEB中有10%~15%的作弊内容。 搜索引擎优化(Search Engine Optimizing) 行业的诞生 正当手段:对网页进行优化(标题、布局) 作弊手段:欺骗搜索引擎的手段 反作弊(anti-spam)是搜索引擎公司的一项重要任务 学术界2005年开始就有AIRWeb: Adversarial Information Retrieval的Workshop (/),其中最重要的一个任务就是Web反作弊 Web作弊的危害 降低用户体验的满意程度,降低用户对搜索引擎的信任 搜索引擎公司会因用户的满意度降低而使其商业价值受到损害 作弊或者垃圾页面也消耗了大量时间和空间 Web作弊的方法 一、各种提高排名的技术 二、各种隐蔽技术,用于使第一类技术的使用不被发现 Web作弊的方法 一、各种提高排名的技术 二、各种隐蔽技术,用于使第一类技术的使用不被发现 利用关键词提高排名 内容匹配
显示全部