文档详情

基于内容的搜索引擎技术研究及其应用-计算机软件与理论专业论文.docx

发布:2019-03-27约3.11万字共44页下载文档
文本预览下载声明
摘要本文针对在大量网络信息中进行快速搜索所关注信息问题,对基 摘要 本文针对在大量网络信息中进行快速搜索所关注信息问题,对基 于内容的信息搜索引攀迸辛予了分析和讲究。主要内容包括:搜索引攀 豹发展与研究现状、搜索雩|擎审采用的spider潦淫、信息搜集策略、 浚爱信息翡搓载与分析所涉爱的数据挖掘、智麓俄理技术等。同时穰 据烟孳{亍建应嗣实际,在分梃实现僖息搜索的撬剃与嚣璎、圭蘧相美 度分橇算法及分词技零的基础上,在枣困烟擎科教网孚爨上采用建建 SOL SERVER索弓l数据库和04≠舞发语言,设计秀发了一种基子内容的 信息搜索弓l擎。实际.应用效果表明,该搜索弓I攀对减少王作人员的重 复性劳动强度,提高工作效率和质量,促进烟草行业办公自动化水平, 有良好的社会效益与经济效益。本应用研究在主题相关度分析算法及 分词技术等方面有一定的学术意义和推广应用价值。 关键词:搜索引擎信息检索 数据挖掘橱能代理网络技术 Research Research and application of the technology of the search engine Abstract This text focuses on the theoretical research and analyses of the technology of the search engine,including the following contents mainly:the developing history and current situation ofthe search engine, the principle ofspider in it、tactics ofcollecting information、the analyses about how information is drawn in the search engine、information excavating、intellectual agent,etc.Having analyzed its realization mechanism,the principle of searching,algorithms of analyzing in the theme correlated degree、and participle technology applied,a search engine based on content has been developed,and applied to the science and technology network of Chinese Tobacco.The system uses C language to develop,and adopts SQL SERVER to set up the index database,and has achieved better application resuk in the real work,it also has application study value and meaning to reduce repeated labor intensity and raise working efficiency and quality Keywords:search engine:Information retrieval,Information excavating, intelligence acting as agent,network application 1 1 引 言 {.1搜索弓l擎的发展 随着INTERNET的迅速发展与广泛应用, 网络信息嫩目益居《增。 由于网络信息的 分散性,广阔分布在无数个结点的服务器上,对一个普通用户来说,如何在海量信息中 辘妖逡准确魏找劐蠡己获需要关注兹售怠,已成为A翻灏卡分关心豹翊题。另一方瑟, 因信息搜索引擎能为用户和信感源之间架怒的一条沟通的桥梁,也已成为研究与开发人 员所关注的一个热点课题。因此,其研究与应用经历了一个快速发展的过程。 叁t994年《蓠WEBCRAWLER(阏络,℃瓜惫)援索弓|擎程瓣上公布劳嚣鑫爱户秀戆缀 务,同时第一代嶷正基于WWW技术的搜索引攀LYCOS也诞生,它们的出现对网络的发展 超了极大的促进作用,自此搜索引擎进入高速发展阶段。 到1995年,真正商监亿静援索}l擎才开始大规模的开发并投入使雳(如YAHOO、 EXCITE、INFOSEEK、ALTAVISTA等)。由于商业动力的驱使,搜索引擎拽术也在不断的发 震与更掰,已经从原有豹曩录式分类结构梭索(如:YAHOO等)发展到全文检索(如:
显示全部
相似文档