文档详情

《因特网上的信息检索》教学课件1.ppt

发布:2024-08-17约2.9千字共14页下载文档
文本预览下载声明

你认为真正的网络高手是怎样的?3.2因特网上的信息检索内容概要因特网上的信息检索因特网信息检索的方法搜索引擎的发展与分类搜索引擎的工作过程搜索引擎的产生搜索引擎技术的发展搜索引擎的分类信息检索常见问题及原因分析文本搜索使用单个关键词进行搜索使用两个及两个以上关键词进行搜索直接输入多个关键词,关键词之间用空格,这样就表示“AND”关系;用减号“-”表示“非”,用于表示要求搜索结果不包含某些特定信息;加上双引号。这在查找名言警句或专有名词时显得格外有用搜索特殊格式的文件目前可搜索的文件格式:DOC、PPT、XLS、TXT文件;最精彩的,可搜索Flash文件:SWF文件、gif动态图片文件方法:关键词filetype:关键字.文件格式或关键字.文件格式搜索引擎的产生随着网络中信息爆炸性地增长,信息分散储存、数量多,网络用户想找到所需的信息如同大海捞针。为了满足大众的信息检索需求,从事专业信息检索的公司和搜索网站应运而生。搜索引擎是因特网上信息检索的软件系统。最早的搜索引擎出现于1994年4月。斯坦福大学的两名博士生,美籍华人杨致远和美国人DavidFilo共同创办了超级目录索引雅虎(Yahoo),并成功地使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展时期。搜索引擎的分类及原理按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:1.目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是:Yahoo、LookSmart、OpenDirectory、GoGuide等。2.全文搜索引擎(机器人搜索引擎):由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的代表是:AltaVista、NorthernLight、Excite、Infoseek、Inktomi、FAST、Lycos、Google;国内代表为:“天网”、悠游、OpenFind等。3.元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。这类搜索引擎的代表是WebCrawler、InfoMarket等。搜索引擎技术的发展趋势1.提高搜索引擎对用户检索提问的理解。2.对检索结果进行进一步处理。3.确定搜索引擎信息收集范围,提高搜索引擎的针对性。2.索引器对所搜集的信息进行提取和组织,并建立索引库。1.搜索器在因特网中发现、搜集网页信息。3.由检索器根据用户输入的查询关键词,在索引中快速检出相关文档,进行文档与查询内容相关比较,对人、检出的结果进行排序、并将查询返回给用户。4.用户接口:用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。3.2.3搜索引擎的工作过程一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成搜索引擎的工作过程输入查询表达式检索器查询结果显示查询信息排序索引器搜索器采集结果索引数据库用户查询查询结果信息采集索引排序筛选用户接口目录索引类搜索引擎的工作原理一般采用人工方式采集和存储网络信息,依靠手工为每个网站确定一个标题,并给出大概的描述,建立关键字索引,将其放入相应的类目体系中。用户自己的错误初学者搜索时容易犯的6个低级错误和解决方法常见错误1:错别字经常发生的一种错误是,你输入的关键词含有错别字,改正了就好。常见错误2:关健词太常见搜索引擎对常见词的搜索存在缺陷,因为这些词曝光率太高了,以至于出现在成百万网页中,使得它们事实上不能被用来帮你找到什么有用的内容。比如说搜索“电话”。常见错误3:多义词要

显示全部
相似文档