文档详情

00信息检索课程介绍.ppt

发布：2017-05-18约7.09千字共47页下载文档

文本预览下载声明

写在授课之前授课学时实验学时 Quiz 下面场景中，按回车键，会发生什么？浏览器地址栏里输入/之后 Google搜索框里输入”黑龙江大学”之后本课程的内容(1) 信息及信息资源信息检索概述信息检索模型信息检索评价检索的改进技术本课程的内容(2) 文本分类和聚类信息过滤 Web信息检索基于内容的图像及音频检索问答系统及自动文摘信息及信息资源信息的涵义信息的种类、特征信息资源电子信息资源电子信息资源的特征、类型信息检索概述概念及意义体系结构研究现状与发展趋势相关领域主要搜索引擎分类与评价信息检索的应用信息检索模型布尔模型向量空间模型(VSM) 概率模型信息检索评价相关性问题信息检索性能评价信息检索性能评价指标信息检索评价试验平台TREC 检索的改进词(Term)处理 Stemming（词干提取）技术，词法分析、形态还原，停用词表的构建，语义词典的构建，分词、词性标注和词义消歧等索引技术倒排文档(Inverted List)，Signature文件，PAT树等提问(Query)处理提问理解，提问的语义扩展（包括基于局部聚类的提问扩展，基于局部上下文分析的提问扩展，基于相似语义词典的提问扩展，基于统计词典的语义扩展）相关反馈（包括Term权重的重新计算，相关反馈策略的评价等）文本分类和聚类特征词抽取 TFIDF 信息增益方法文本表示文本相似度计算文本分类算法文本聚类算法文本过滤过滤系统中的Profile的表示与管理各种匹配算法 Brute Force算法 Knuth-Morris-Pratt算法 Boyer-Moore算法 Karp-Rabin 过滤系统在信息安全中的应用 Web信息检索 Web检索的历史与现状 Web Information Discovery 搜索技术（Crawling）排序算法 PageRank Hits Web Noises Detection *基于内容的图像及音频检索* 图像的特征表示图像相似度计算相关反馈基于音频的信息检索计算 *问答系统及自动文摘* 问答系统问题的理解与分类转述(Paraphrasing) 答案抽取问答式信息检索的应用自动文摘自动摘录基于理解的自动文摘基于信息抽取的自动文摘基于篇章结构的自动文摘课程目的发现了什么问题？ Web信息的数量，内容丰富程度（庞杂）↑ 人们访问信息的效率↓ 课程目的介绍面对web信息过载问题挑战的各种研究和尝试，具体为大规模Web信息搜集、分析与处理方法与技术认识这个激动人心领域的导论研究对象——Web 1980年Tim Berners-Lee负责的Enquire（Enquire Within Upon Everything的简称）项目。 1990年11月，第一个Web服务器nxoc01.cern.ch开始运行，Tim Berners-Lee在自己编写的图形化Web浏览器“WorldWideWeb”上看到了最早的Web页面。 1991年，CERN（European Particle Physics Laboratory）正式发布了Web技术标准。目前，与Web相关的各种技术标准都由著名的W3C组织（World Wide Web Consortium）管理和维护。 Web的支撑技术用超文本技术（HTML）实现信息与信息的连接用统一资源定位技术（URI）实现全球信息的精确定位用新的应用层协议（HTTP）实现分布式的信息共享。这三个特点无一不与信息的分发、获取和利用有关。 Tim Berners-Lee说：Web是一个抽象的（假想的）信息空间。也就是说，作为Internet上的一种应用架构，Web的首要任务就是向人们提供信息和信息服务。 Web技术的发展客户端技术 GIF第一次为HTML页面引入了动感元素 JavaApplets和JavaScript的支持 CSS（Cascading Style Sheets）和DHTML（Dynamic HTML）技术插件、ActiveX控件技术服务端技术 CGI允许服务端的应用程序根据客户端的请求，动态生成HTML页面，动态信息交换 Perl ，PHP 、ASP 、JSP 企业级开发平台--J2EE和.NET Web增长 Load on the first Web server (info.cern.ch) 1000 times what it has been 3 years earlier Web增长网站数目↑ ↑ ↑ 1993-1996, from 130 to 600.000 sites Netcra

显示全部

相似文档