信息检索与搜索引擎课概述.pdf
文本预览下载声明
信息检索与搜索引擎 陈若愚
计算机学院
概述 北京信息科技⼤学
TOC
❖ 课程简介
❖ 考核⽅式
❖ 信息检索与搜索引擎概述
❖ ⽹络爬⾍的原理及应⽤
课程简介-关于我
❖ 陈若愚
❖ 办公室:教3楼221 ,软件教研室
❖ 邮箱:ruoyu-chen@163.com
❖ 答疑时间:1-12周每周四 13:30-15:00
课程简介-信息检索与搜索引擎
❖ 课时:授课24学时+上机8学时
❖ 考核:开卷考试50% +40 %试验报告+10%考勤
❖ 参考:
这就是搜索引擎:核⼼技术详解. 张俊林. 电⼦⼯业出版社.2012
信息检索导论. Christopher D .Manning等. ⼈民邮电出版社. 2010
课后阅读材料
/ / … …
课程简介-课程内容
❖ 信息检索的基本原理
❖ 搜索引擎的架构
❖ ⽹络爬⾍
❖ 索引构建和压缩
❖ 检索模型和搜索排序
❖ 如何设计和实现⼀个搜索引擎
课程简介-课程特点
❖ 内容杂:理论+实践
❖ 倒排索引,索引压缩算法,⽂档主题模型,PageRank...
❖ HTML ,XML ,XPath ,DOM ,Java ,HTTP …
❖ 学时少:24+8
我对这门课的定位
❖ 理论+实践,偏重于实践
❖ 理论:倒排索引、检索模型
❖ 实践:垂直搜索引擎的设计与实现
信息检索与搜索引擎初步
❖ 什么是信息检索
❖ 信息检索系统的组成
❖ 搜索引擎的发展史
❖ 搜索引擎的总体结构
❖ ⽹络爬⾍的原理与应⽤
什么是信息检索(Information Retrieval)
❖ 定义1: Information retrieval (IR) is finding material
(usually documents) of an unstructured nature (usually
text) that satisfies an information need from within large
collections (usually stored on computers). [信息检索是
从⼤规模⽆结构化⽂档集合中找出满⾜特定信息需求的
⽂档资料的过程]
❖ 定义2: 在⽂档集合D上,对于由关键词w[1] … w[k]组成的
查询串q ,返回⼀个按查询q和⽂档d匹配度relevance(q, d)
排序的相关⽂档列表D’ 。
信息检索与数据库的关系
❖ 数据库中保存的是结构化数据
❖ 信息检索所研究的对象是⾮结构化数据:text, html …
❖ 数据库使⽤SQL语⾔来对数据进⾏增、删、改、查
❖ 信息检索依赖于索引和检索算法
信息检索实例
❖ 没有计算机,没有⽹络的年代,⼈们如何检索信息?
❖ 图书、字典、词典
❖ 图书馆卡⽚⽬录
❖ 电话黄页
图书- ⽬录
❖ 章-节-页码
❖ 按页码排序
图书-索引
❖ 词/短语-页码列表
❖ 按照词⾸字母字典序排列
字典/词典
❖ 部⾸检字法
❖ ⾳序检字法
❖ 笔画检字法
显示全部