文档详情

《别墅电气设计探讨》.pdf

发布:2016-01-26约字共5页下载文档
文本预览下载声明
第33卷第1期 武汉理工大学学报·信息与管理工程版 V01.33No.1 201 Feb.201l 1年2月 JOURNAL0F WUT(INFORMATIONMANAGEMENTENGINEERING) 文章编号:1007—144x(2011)Ol一0079—04 文献标志码:A 基于语义概念树和局部上下文分析的查询扩展 杨海南 (武汉理工大学理学院,湖北武汉430070) 摘要:针对信息检索中因文档与查询词之间的不匹配而影响信息检索效果的问题,提出了一种结合基于语 义概念树和局部上下文分析的查询扩展模型。该模型对用户提交的查询关键词进行扩展,扩展词来源于基于 语义概念树和局部上下文分析的扩展词。实验结果表明,与单纯采用局部上下文分析方法(LCA)相比,该方 法有更优的检索性能。 关键词:查询扩展;语义概念树;局部上下文分析 中图分类号:TP391 搜索引擎可以帮助人们从大量的文件中快速 效性比较强的领域表现较为明显。最近几年,查 提取所需要的信息,但是用户提交的查询往往与 询扩展技术出现了各种技术相结合的趋势,例如 检索库中的词不匹配,查询扩展是解决该问题的 将潜在语义分析方法与文献聚类结合起来∞J,将 有效方法之一。它以用户的初始查询为基础,通 相关反馈与文本分类技术结合起来J。在这种 过一定的策略加入一些相关的词,从而使查询包 趋势的启发下,笔者利用语义概念树和局部上下 含更多的相关信息。 文分析(LCA)的思想对用户的查询请求进行扩 目前常用的查询扩展方法可大体分成3类: 展。经实验验证,该算法对改善搜索引擎的搜索 全局分析方法、局部分析方法和基于语义知识词 性能有良好的作用。 典的方法。全局分析方法是对全部文档中的词或 1模型及其算法 词组进行相关分析,计算每对词或词组间的关联 程度,根据预先计算的词间相关关系将与查询用 1.1模型基本思想 词关联程度最高的词或词组加入原查询以生成新 基于语义概念树和局部上下文分析的查询扩 的查询。常见的全局分析方法包括潜在语义标 展算法的基本思想是:首先根据语义词典HowNet 引H]、相似性词典∞1等。局部分析方法是利用初 对初始查询词进行扩展构造出语义扩展词集 次检索得到的与原查询最相关的n篇文章作为扩 展用词的来源。最有代表性的局部分析方法是相 在概念树所处层算出各扩展词权重;其次,根据局 关反馈方法∞1以及在其基础上发展起来的伪相 部上下文分析构造出初始查询词的扩展词集,称 关反馈方法HJ。语义知识词典扩展方法是借助 WordNetJ、HowNet等语义知识词典,选择与初始并计算各扩展词权重;然后引入一个权值调节因 查询词存在一定语义关联性的词来进行扩展。 子a,将两类扩展词合并成综合扩展词集T=semT 全局分析和局部分析都是以查询词为中心机 UstaT={瓦};最后将综合扩展词集加入初始查 械匹配的查询方法,因而不能从根本上消除用户 询检索文档。 查询意图与检索的语义偏差。利用语义知识词典 1.2算法基本描述 的查询扩展方法能消除语义偏差且不需要大规模 1.2.1语义概念树构造扩展词集 语料库的支持,但其缺点是非即时性,特别是在时 语义扩展词是基于语义词典为初始查询词构 收稿日期:2010—09—18. 作者简介:杨海南(1984一),男,山东I临沂人,武汉理工大学理学院硕十研究生. 万方
显示全部
相似文档