文档详情

搜索引擎的架构.ppt

发布：2025-04-06约2.45千字共10页下载文档

文本预览下载声明

*第二章搜索引擎的架构搜索引擎是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息，在对信息进行组织和处理后，为用户提供检索服务，将用户检索相关的信息展示给用户的系统。搜索引擎使用情况分析报告搜索引擎使用情况分析报告2.1什么是软件架构*1软件架构是在一个特殊的抽象层次用于描述系统的工具2通常包括软件组件、软件提供的接口以及各组件之间的联系3搜索引擎架构的需求4效果(effectiveness):对于一个用户查询，希望检索到最多的相关文档；5效率(efficiency):尽可能快地处理用户的查询2.2基本构件*索引处理01020304建立可查找的数据结构查询处理使用这些数据结构和用户的查询生成一个排好序的文档列表2.3组件及其功能*2015索引处理构件2019查询处理构件2016文本采集2020用户交互2017文本转换2021排序2018索引创建2022评价文本采集*爬虫为搜索引擎发现和抓取文档；许多类型，web,enterprise,desktop，主题爬虫网络爬虫通过追踪网页上的超链接来找到并下载新的页面能够高效处理互联网上大量出现的新网页抓取任务可以限制在一个单独的站点主题爬虫采用分类技术限制所访问的网页是同一主题文本采集(Cont.)*侧重搜索引擎系统需求：高效4收集的内容：网页、链接关系5爬虫(Cont.)1及时、高效的收集数量尽可能多的有用的万维网页面，以及建立它们之间的超链接关系2侧重用户需求：及时、数量多、有用3文本采集(Cont.)*运行原理文本采集(Cont.)*信息源(Feeds)是一种存取实时文档流的机制；-e.g.,新闻信息源是一个持续不断的新闻流及新闻的更新-RSS是互联网信息源采用的一个通用标准；-RSS“阅读器”用于支持RSS信息源，采用XML数据格式。阅读器检测信息源，可以获取信息源更新的内容；转换(Conversion)e.g.HTML,XML,Word,PDF,etc.→XML文本编码转换以适用不同语言-Unicode是一个通常使用16位进行编码的标准编码方案，可以表示世界上绝大多数语言中使用的文字文本采集(Cont.)*文档数据库存储文本、元数据和另一些文档相关的内容文档元数据，如文档类型、创建时间另一些内容如超链接、锚文本为搜索引擎组件提供对文档内容的快速存取e.g.resultlistgeneration010302文本转换*解析器处理文档中的文本词素序列，以识别文档中的结构化元素-e.g.,titles,links,headings,etc.词素切分是指识别文档中的词素由空格分开的字母和数字构成的字符串-包括处理特殊字符，如大小写、连接符、单撇号-E.g.“apple”and“Apple”;”on-line”;”O’Connor”文档结构通常由HTML、XML等标记语言指定-使用tag定义文档元素，E.g.,h2Overview/h2-文档解析器使用标记语言的句法知识识别文档的结构文本转换(Cont.)*停用词去除不具有实际意义的功能词，去除后不影响搜索效果-e.g.,“and”,“or”,“the”,“in”根据实际应用确定停用词表-避免“tobeornottobe”词干提取去除词缀得到词根的过程得到单词最一般的写法-e.g.,“computer”,“computers”,“computing”,“compute”文本转换(Cont.)*超链接的抽取和分析抽取内容：超链接和锚文本链接分析向搜索引擎提供一个页面的关注度，并在一定程度上提供页面的权威度e.g.,PageRank锚文本是网络链接上可以点击的文本，给出了链接所指向页面的内容概要文本转换(Cont.)*信息抽取识别更加复杂的索引项，而不是一个单独的词-E.g.一个黑体、加粗的词，题目中的词识别指定语义的特征-命名实体识别，E.g.人名、公司名、日期、地名分类器识别与类别相关的数据。i.e.,assignslabelstodocuments辨别一个文档是否是垃圾文档识别文档中的非内容部分，如广告等2.3.3索引的创建*文档统计汇总和记录词、特征及文档的统计信息；E.g.索引项在各文档中出现的频

显示全部

相似文档