文档详情

第二节 搜索引擎的架构.ppt

发布:2017-06-01约3.98千字共31页下载文档
文本预览下载声明
* 软件架构:在一个特殊的抽象层次用于描述系统的工具 搜索引擎的基本构件 组件及其功能 索引处理构件:文本采集、文本转换、索引创建 查询处理架构件:用户交互、排序、评价 总 结 * 第二章 搜索引擎的架构 * 搜索引擎 是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。 * 搜索引擎使用情况分析报告 * 搜索引擎使用情况分析报告 * 2.1 什么是软件架构 软件架构是在一个特殊的抽象层次用于描述系统的工具 通常包括软件组件、软件提供的接口以及各组件之间的联系 搜索引擎架构的需求 效果(effectiveness ):对于一个用户查询,希望检索到最多的相关文档; 效率(efficiency ):尽可能快地处理用户的查询 * 2.2 基本构件 索引处理 建立可查找的数据结构 查询处理 使用这些数据结构和用户的查询生成一个排好序的文档列表 * * * 2.3组件及其功能 索引处理构件 文本采集 文本转换 索引创建 查询处理构件 用户交互 排序 评价 * 爬虫 为搜索引擎发现和抓取文档; 许多类型,web, enterprise, desktop,主题爬虫 网络爬虫通过追踪网页上的超链接来找到并下载新的页面 - 能够高效处理互联网上大量出现的新网页 - 抓取任务可以限制在一个单独的站点 - 主题爬虫采用分类技术限制所访问的网页是同一 主题 2.3.1文本采集 * 爬虫(Cont.) 及时、高效的收集数量尽可能多的有用的万维网页面,以及建立它们之间的超链接关系 侧重用户需求:及时、数量多、有用 侧重搜索引擎系统需求:高效 收集的内容:网页、链接关系 2.3.1文本采集(Cont.) * 运行原理 2.3.1文本采集(Cont.) * 信息源(Feeds) 是一种存取实时文档流的机制; - e.g., 新闻信息源是一个持续不断的新闻流及新闻的更新 - RSS是互联网信息源采用的一个通用标准; - RSS“阅读器”用于支持RSS信息源,采用XML数据格式。 阅读器检测信息源,可以获取信息源更新的内容; 转换(Conversion) e.g. HTML, XML, Word, PDF, etc. → XML 文本编码转换以适用不同语言 - Unicode是一个通常使用16位进行编码的标准编码方案, 可以表示世界上绝大多数语言中使用的文字 2.3.1文本采集(Cont.) * 文档数据库 存储文本、元数据和另一些文档相关的内容 - 文档元数据,如文档类型、创建时间 - 另一些内容如超链接、锚文本 为搜索引擎组件提供对文档内容的快速存取 - e.g. result list generation 2.3.1文本采集(Cont.) * * 解析器 处理文档中的文本词素序列,以识别文档中的结构化元素 - e.g., titles, links, headings, etc. 词素切分是指识别文档中的词素由空格分开的字母和数字构成的字符串 - 包括处理特殊字符,如大小写、连接符、单撇号 - E.g. “apple” and “Apple”;”on-line”;”O’Connor” 文档结构通常由HTML、XML等标记语言指定 - 使用tag定义文档元素,E.g. , h2 Overview /h2 - 文档解析器使用标记语言的句法知识识别文档的结构 2.3.2文本转换 * 停用词去除 不具有实际意义的功能词,去除后不影响搜索效果 - e.g., “and”, “or”, “the”, “in” 根据实际应用确定停用词表 - 避免“to be or not to be” 词干提取 去除词缀得到词根的过程得到单词最一般的写法 - e.g., “computer”, “computers”, “computing”, “compute” 2.3.2文本转换(Cont.) * 超链接的抽取和分析 抽取内容:超链接和锚文本 链接分析向搜索引擎提供一个页面的关注度,并在一定程度上提供页面的权威度 - e.g., PageRank 锚文本是网络链接上可以点击的文本,给出了链接所指向页面的内容概要 2.3.2文本转换(Cont.) * 信息抽取 识别更加复杂的索引项,而不是一个单独的词 - E.g.一个黑体、加粗的词,题目中的词 识别指定语义的特征 - 命名实体识别,E.g. 人名、公司名、日期、地名 分类器 识别与类别相关的数据。 i.e., assi
显示全部
相似文档