P2P网络中一种新型的基于DHT的多关键字信息检索模型.pdf
文本预览下载声明
No.3
第13卷第3期 电路与系统学报 V01.13
2008年6月 JOURNALOFCIRCUITSANDSYSTEMS June,2008
文章编号:1007·0249(2008)03·0023—07
P2P网络中一种新型的基于DHT的多关键字信息检索模型·
周健, 洪佩琳, 圈
(中国科学技术大学电子工程与信息科学系信息网络实验室,安徽合肥230027)
摘要。在现有的P2P系统应用中,信息的检索是一项非常重要的内容,但现有的检索机制不够高效。本文针对这
个问题,在现有的结构化DHT模型基础上,提出一种新型的多关键字检索模型。在一个P2P节点上存储包含一个资
源内容的多个关键字的信息,使用带有权重的多关键字向量代表资源信息,并把请求也表示成带有权重的多关键字向
量,对请求和资源信息的向量进行匹配,选取符合要求的信息。仿真和分析表明此方案可以显著改善搜索结果的精确
性和大大减少搜索所需的寻路跳数。
关键词-P2P:DHT;多关键字;信息检索
中图分类号·TN919,2文献标识码·A
1 引言
在现有的P2P系统的应用中,信息的检索是一项非常重要的内容,现有的检索机制不够高效,检
索出来的很多信息相关性很小,而且大多使用的是泛洪查找,只能查找到网络中一小部分信息内容,
又占用带宽。因此引发了如何提高对信息的高效检索的问题。
现有的P2P的组织结构按搜索机制来分主要分为三类:
1)集中索引式的,如Napster[u;
2)请求泛洪式的,属于分散式、非结构化的模型,如Gnutella[2】;
Hash
3)分布式哈希表(DHT,Distributed
PastryIs]等。
都是基于关键字的全文检索,仅仅是对于文本关键字、标题或摘要中的关键字进行单一的匹配,无法
满足更加复杂、智能的搜索请求。
针对现有的信息检索方面存在的问题,一些相关文献也提出了自己的一些解决方案。
【7】中提出了一种基于HSS(HierarchicalSummary
网络中进行搜索,通过以不同的尺度对网络中的文档进行摘要和维护,从而对文档进行有效的搜索。
出把文档和请求表示成向量的形式,并使用向量把文档的索引存放在CAN中,使得存放相近的索引
在语义上也是相近的。
本文在现有的结构化DHT模型的基础上,提出一种新型的多关键字检索模型,在一个P2P节点
上存储包含一个资源内容的多个关键字的信息,使用带有权重的多关键字向量代表资源信息,并把请
求也表示成带有权重的多关键字向量,对请求和资源信息的向量进行匹配,选取符合一定要求的信息。
·收稿日期-2005-09-05修订日期:2005.09-30
基金嘎目·国家自然科学基金资助项目
万方数据
24 电路与系统学报 第13卷
多关键字检索模型,其中包括如何进行请求和信息的匹配;第4节给出CAN和Chord上的仿真结果
和分析;最后是本文的小结。
2 DHT模型概述
层,即一个逻辑层,把P2P的节点按一定规则组织在一起,便于信息的查找,而不需要像Gnutella那
位置,以及它在逻辑网络中的邻居表(路由表)。每个节点要维护一些资源信息,即(key,value)对,
key决定存储的目标节点,value则是存储在目标节点的信息,可以是内容的索引,也可能是内容本身。
节点进行信息的插入和查找时,同样也是对关键字哈希,产生一个ID,找到NodeId与此ID最接近的
节点,进行操作。为了说明本文的方案对于DHT模型的通用性,分别模拟两种最具代表性的DHT模
型CAN和Chord进行仿真。下面简单介绍一下CAN和Chord模型。
2.1 CAN简介
CAN的设计运用虚拟的d维笛卡尔坐标空间,为每个加入的节点
分配一块空间(可认为此区间相当于一个Nodeld),节点维护应放置
在此空间的信息,即一个(key,value)对,此外每个节点可通过坐
标空
显示全部