文档详情

华南理工大学-cwirf----中文web信息检索论坛.ppt

发布:2016-09-13约2.01千字共17页下载文档
文本预览下载声明
华南木棉信息检索 木棉检索队:欧健文(队长),陈晓志,张元丰, 胡俊刚,陈晓峰 jwou@ 目录 目标分析 设计实现 实验分析和总结 未来工作 目标 主题提取(TD) 查找主题相关的关键资源的入口 导航搜索 HP 查找指定名字的网站的首页 NP 查找指定名字的页面 主题提取(TD) 主题提取(TD)的评分标准 1)是否大部分切合主题; 2)提供主题的可靠的信息; 3)不是一个更大的切合主题站点的一部分。 要求:十个结果中寻找尽可能多的不同站点(用它们的网站首页面表示) 导航搜索 HP 查找指定名字的网站的首页,什么因素说明一个 页面是home page? NP 查找指定名字的页面。用户所要查找的可能是某一则新闻,某种型号的产品介绍,甚者是某个公司的地址电话等 设计思路 衡量一个网页的得分通常分为两大部分 匹配度 1、向量空间模型+TF*IDF 2、对网页文档进行分块 标题 主题内容 主题相关内容 网页噪音 网页的链出锚本 网页的链入锚本 重要性 1、Pagerank 2、网站首页 3、资源入口页面 系统框架索引 系统框架检索 系统框架二次检索 站内聚合。 判断每个网页类型目录型还是主题型。 对网页的链出文本进行分析,计算其与查询词的匹配程度。匹配程度越高,说明该网页越可能是关键资源。 计算该网页的链出网页与查询词的匹配程度。越多链出网页与查询词匹配,说明该网页属于关键资源的可能性就越大。 评测结果 这次SEWM2005评测,共提交了5组主题 检索和5组导航查询。 采用了链接分析技术,锚点文本,对网页进行分块处理 主题采用automatic,直接使用TITLE字段作为查询表达式 导航部分,分为首页和指定页面 对于所给的查询集,我们可以很容易根据查询就分辨出该查询的意图:HP or NP 所以对查询词进行标记,用H表示该查询为查找HP,而N表示要查询指定页面。 实验环境 实验机器为Itanium2双CPU的机器,CPU为1.5Ghz,内存为2G,机器运行操作系统为Redhat AS3.0 。 实验结果 评测结果TD 评测结果HP/NP 总结 锚点文本可以很好地表示文档内容,应加大其比重。 pagerank能够确定首页等重要页面,且精确的pagerank和近似的pagerank效果相差不大。 中文分词的粒度对检索精度有比较大的影响。加入中文分词可以大大减少返回不相关的文档,提高检索速度。 未来的工作 计算网页的重要性采用PR(site)+PR(page) 进一步挖掘锚点文本 进一步优化HAC算法 谢谢大家! / 全国搜索引擎与网上信息学术研讨会 SEWM 2005中文Web检索 匹配度 查询词与文档的匹配程度 关键资源的入口 一组同主题的网页集合 网 页 预 处 理 中 文 分 词 链 接 分 析 文档库 索引库 网页 噪音库 连接库 综合采用多种去噪算法,噪音的去除,可以减少索引量,可以避免噪音对检索结果的影响 区别对待站内链接和站外链接 提取网页的链接,一方面通过分析网页链接关系计算网页的pr,另一方面,可以网页得链入锚本。 链入锚点文本 网页url 网页标题 网页主题内容 链出锚点文本 最长匹配法分词 最短匹配法分词 Google pagerank (GPR)算法 简单pagerank (SPR)算法 用户输入查询词 索引库 二次检索 结果 TD:找出关键资源(HAC) 1、url特征 2、网页结构,目录型网页 3、网页的链出锚本 4、网页的链出网页 HP:找出首页 NP:?? 平均查询时间 (ms) 匹配记录数 2889/1777 32129/2537 北戴河 2825/1021 18298/1384 寻秦记 5047/1751 70732/11367 天气预报 没有去噪没有分词 /去噪分词 没有去噪没有分词 /去噪分词 简单站内聚合 简单站内聚合 HAC 简单站内聚合 HAC 二次检索 最小分词 最大分词 最小分词 没有 没有 分词 SPR GPR GPR SPR SPR GPR/SPR 没有 有 有 没有 没有 去噪 RUN_5 RUN_4 RUN_3(4) RUN_2 RUN_1(1) 加H/N 加H/N 加H/N 加H/N,手工分词 加H/N 调整查询词 最小分词 最大分词 最小分词 没有 没有 分词 GPR SPR SPR SPR SPR GPR/SPR 有 没有 没有 没有 没有 去噪 RUN_5 RUN_4 RUN_3(2) RUN_2(1) RUN_1(3) * * *
显示全部
相似文档