索引数据库与搜索引擎分析.ppt
文本预览下载声明
指定文件类型 ③特色 直达与检索词最相关的网页 网址: 百度(Baidu)是目前全球最优秀的中文信息检索与传递技术供应商。中国所有提供搜索引擎的门户网站中,超过80%以上都由百度提供搜索引擎技术支持,现有客户包括新浪、搜狐(Chianren)、央视国际、腾讯等。 案例:百度 ①检索范围 ②检索方式 简单检索 高级检索 简单检索 逻辑“与”:两词间加空格 逻辑“或”:两词间加“|”(前后加空格) 逻辑“非”:两词间加“-”(“-”号前加空格) 强制检索:双引号 指定网域:site: 指定文件类型:filetype:文件类型 ③特色 网页快照 如果原链接已经死掉或者因为网络的原因暂时链接不通,那么可以通过网页快照看到该页面信息。当然,快照内容不是该页最新页面; 如果原地址打开很慢,那么可以直接查看Google缓存页面,因为Google服务器速度极快。 智能化关键词输入工具 拼音汉字自动转换 自动纠错 简繁体中文自动转换 【补充】框计算 基本概念 技术框架 实现过程 基本概念 框计算是由百度董事长兼首席执行官李彦宏在2009年8月18日“百度技术创新大会”上提出的全新技术概念。 用户只要在“框”中输入服务需求,系统就能明确识别这种需求,并将该需求分配给最优的内容资源或应用提供商处理,最终精准高效地返回给用户相匹配的结果。 这种高度智能的互联网需求交互模式,以及“最简单可依赖”的信息交互实现机制与过程,称之为“框计算”。 技术架构 实现过程 首先,用户的任意一个需求被提交到“框”里; 然后,“框计算”经过一系列复杂的需求分析,包括语义分析、行为分析、智能人机交互技术分析和海量计算,将用户的需求分发给“框计算”后台单个或多个对应的数据/应用所响应; 第三,“框计算”背后的资源平台是开放的,框计算平台提供了大量即插即用的接口,各种数据和应用可以主动与框计算平台对接,使自己有机会来响应框所收集到的需求;最后,用户“即搜即得、即搜即用”地获得精准、可靠、稳定的信息或应用需求结果。 * * 图引用:yhf’s ppt《可扩展Web信息搜集系统的设计、实现与应用初探》 王继成《基于元数据的web信息检索技术研究》,南大 其中的文档检索是典型的IR系统,SE使用的检索模型:扩展的bool模型, it’s the fact anyway! 扩展之一:扩展的bool运算符,支持自然语言输入,“”定义短语,ADJ; 默认空格表示AND等 扩展之二:辅助权值计算,用于结果排序 》》简介结束,下面开始从系统performance出发,介绍各个研究问题、研究现状、方法。 * The goals of web pages storage are long-time preservation and multi-application oriented. So the format should be simple enough and convenient enough to use. Yet we face the two challenges, the size of raw web pages is not regular – it may range from lKB to several MB. An individual file will usually require more space to store than the true size of the file, because the block size is more than one byte, and a block is never divided between multiple files. Suppose the size of a page file is 6KB and the block size is 4KB, the file will occupy 2 blocks. If the space waste in storing a single file will be 2KB, how much will cost in storing numerous files? the life of storage device is not unlimited and the system software is not absolutely robust, so the storage format should have a recovery property to resist the unexpected hardware or software failure and minimize data losing. If parti
显示全部