3-实验3-信息检索认知.doc
文本预览下载声明
实验3 信息检索信息检索(information reteieval)是20世纪50年代初伴随着电子数字计算机出现的一个知识领域。所谓信息检索,是指对信息进行分析、加工、组织和存储,建立数据库或检索文档,并根据用户的需求从数据库(或文档)中找出相关信息的过程。全称是“信息存储与检索”(information storage and reteieval)。作为一种过程,它包括信息的存储和检索(查询)两个阶段;作为一个知识领域,它致力于应用数学方法和计算机技术等手段来管理和利用数量庞大、分散和异质的信息资源,帮助人们应对“信息爆炸”和“信息过载”,有助于提高信息搜寻和信息传播的效率,促进信息资源的开发和利用,改善信息不对称的状况。通过学习,系统地了解和掌握信息存储与检索的基本原理、基本技术、基本工具和方法。传统检索工具(如书本式文摘索引等)联机(在线)检索服务系统和数据库主要网络搜索引擎使用方法信息资源数据库、信息检索系统和网络搜索引擎的设计、开发和实施的原理、流程、技术和方法。
(1)普通计算机机房,保证每个学生一台计算机。
(2)安装WINDOWS系列操系统。
(3)互联网环境
4. 实验内容
1、请进入四大门户网站(新浪、搜狐、网易和CCTV),下载其首页页面,以作为本作业评分的依据。
新浪网址: 搜狐网址:
网易网址: CCTV网址:http://www.CCTV.com
2、查阅自己感兴趣的栏目,如:体育、教育、房产、军事等等
5. 实验步骤
(1)打开IE浏览器,在地址栏中输入以上四个网址,即可进入这几个门户网站。
图1 新浪网首页截图
图2 搜狐网首页截图
图3 网易网首页截图
图4 中央电视台网首页截图
(2)进入门户网站,用抓图的方法抓取有关的图片。
6. 注意事项
(1)进入四大门户网站后,请先在本站浏览一番,看看这几个网站都有哪些信息资源和信息服务,他们的搜索引擎和电子邮件该如何使用。
(2)用屏幕抓图的方法保存时,可用屏幕硬拷贝键PrtScreen先将屏幕拷贝进内存剪贴版后,再用word工具将它从内存中粘贴出来。
(3)下载网页时,请注意在保存时选择“全部内容”选项,这样才能把网页上的图片保存下来。
7. 相关实验
访问校园网:熟悉校园网及其拥有的信息资源,了解大学图书馆数字化信息资源的分布情况,掌握其利用技巧。
二 搜索引擎的使用
1. 理论与技术基础
面对互联网的迅速发展和网络信息、资源的急剧增长,被称为网络之门的搜索引擎(SearchEngine)应运而生。搜索引擎作为互联网导航工具,通过采集、标引众多的互联资源来提供全局性网络资源的控制与检索机制,目标是将互联网上的所有信息资源进行整合,方便用户查找所需信息。搜索引擎本身也是一个www网站,与众多包含网页信息的普通网站不同的是:搜索引擎网站的主要资源是描述互联资源的索引数据库和分类目录,为人们提供了一种搜索互联网信启、资源的途径。搜索引擎的索引数据库以网页资源为主,有的还包括电子邮件地址、新闻论坛文章、FTP、Gopher等互联网资源。
一个完整的搜索引擎主要包括:①人工或自动巡视软件(如网络蜘蛛WebSpider、爬行者Crawler、网络机器人Robots等):②索引库(Index或Catalog)或分类目录;③用于检索索引库的检索软件(SearchEngineSoftware)及浏览Web界面等部分。人工或自动巡视软件定期访问www站点并跟踪链接,对人工或自动巡视软件访问过的www站点和网页建立索引或分类目录,索引库中保存搜索过站点和网页的索引。检索软件根据用户的查询要求在索引库中筛选满足条件的网页记录,并依照排序得分依次给出查询结果,或者根据分类目录一层层浏览。搜索引擎包含了丰富的网上资源信息,对用户的检索响应速度也很快,一般每次检索只要几秒种。
搜索引擎对网络资源的收集和整理主要有两种方式。
一是图书馆和信息专业人员通过对互联网信息资源进行筛选、组织和评价,编制描述网络资源的主题目录。这些目录虽然质量很高,但编制速度无法适应互联网资源增长变化的速度。
二是计算机人员设计开发巡视软件和网络机器人等,对互联网资源进行自动搜集、整理、加工和标弓1。这种方式省时、省力,加工信息的速度快、范围广,可向用户提供关键词、词组或自然语言的检索。但由于计算机软件在人工智能方面与人脑的思维还有很大差距,在检索的准确性和相关性判断上质量不高。因此,现在很多搜索引擎都是将人工编制的主题目录和搜索引擎提供的关键词检索结合起来,以充分发挥两者的优势。但由于互联网本身的特点,使得现有的任何一种搜索引擎都难以做到对互联网信息资源的全
显示全部