文档详情

N层向量空间模型在Web信息检索中的实现.docx

发布:2022-06-23约3.44千字共7页下载文档
文本预览下载声明
PAGE 1 PAGE 1 N层向量空间模型在Web信息检索中的实现 随着互联网和万维网(World Wide Web)的快速富强进展,万维网渐渐成为人们生活中不行或缺的一种信息猎取。万维网给信息检索技术带来了极大的机遇和挑战。经过近十几年的进展,信息检索已经由一个纯粹的学术讨论学科转变成大多数人信息猎取的技术基础。 随着Web 2.0概念的普及和进展,万维网不再仅仅是一个巨大的信息库,更渐渐成为一个用户参加和沟通的平台。Web 2.0应用网站的蓬勃进展将再次推动信息检索技术的革新。在Web 2.0时代,信息检索技术主要有以下三方面的进展趋势:1)更加敏捷的共性化信息服务。随着用户的急剧增加,Web 2.0网站迫切需要满意用户的共性化信息需求。然而,传统的Web信息检索技术并不擅特长理Web 2.0应用的简单结构数据。Web 2.0需要更加敏捷的共性化信息服务,如信息推举系统。2)更加有效的多媒体数据检索技术。随着Web 2.0的普及,用户可以很便利地上传和共享多媒体信息。多媒体数据的快速增多使得多媒体信息检索技术成为人们关注的焦点。 本文在传统向量空间模型的基础上提出一种新的检索方法,将N层向量空间模型应用在Web信息检索上,使之能较好地适应文档集合的动态扩充。理论分析和试验结果表明,此方法能够进一步提高向量空间模型的性能,节约存储空间,加快检索速度,具有较高的精度和召回率。 1 向量空间模型 1.1 传统向量空间模型 向量空间或称线性空间,是现代数学中的一个基本概念,是线性代数讨论的基本对象。 向量空间是线性代数的主体,它是数学中基本又重要的概念,其概念是:设V为n维向量的集合,假如集合V非空,且集合V对于加法及乘数两种运算封闭,那么就称集合V为向量空间。其理论和方法已应用到自然科学、工程技术及社会科学的诸多领域。向量空间的一个直观模型是向量几何,几何上的向量及相关的运算即向量加法,标量乘法,以及对运算的一些限制如封闭性,结合律,已大致地描述了向量空间这个数学概念的直观形象。 向量空间模型的动身点是:每篇文档和查询都包含一些用概念词表达的、揭示其内容的独立属性,而每个属性都可以看成是概念空间的一个维数。因此,文档和查询就可以表示为这些属性的集合,从而忽视了文本结构中段落、句子及词语之间的简单关系。这样,文档和查询可以分别用空间的一个点表示,并且文档矢量与查询矢量之间就存在空间上的不同距离,而这种距离关系在信息检索中的意义就是文档与查询之间的相像度。所以,文档与查询之间的相像度可以用矢量间的距离来衡量。相像度的计算方法有许多种,本文采纳余弦系数法,即用二个矢量之间的夹角的余弦来表示文档与查询间的相关度。夹角越大,距离越远,余弦越小,相关度越小,反之相关度越大。下面介绍向量空间模型的量化方法。 tfij为特征项tj在文档di中消失的频率;dfj为在整个文档集中,包含特征项tj的文档数;idfj为反转文档频数,其值为: 可见,传统的向量空间模型是以文本特征项的频率tf和反转文档频率idf作为其量化基础的。其乘积作为特征项的权重,再通过计算文档与查询之间的相像度即可推断文档与查询是否相关。权重值大的特征项是那些在文档中消失频率足够高,但在整个文档集的其他文档中消失频率足够少的词语,也是对区分文档有意义的词语。 1.2 N层向量空间模型 将一篇文档从组织结构上划分为N层,基于每层的文本内容建立相应的特征项向量和权值。其中特征项抽取和权重计算等同传统向量空间模型相同。这样,对于文档进行N层划分得到的向量空间模型就成为N层向量空间模型。 本文针对Web信息检索进行考虑,由于Web页面的特别格式,要求一篇文档少是由指向该文档的链接、文档标题和文档正文三部分组成。而这三部分的内容对于这篇文档的表达力量是不同的。链接的文字是吸引别人点击文档进行阅读的通道,所以链接的内容表达文档的力量强,其次是标题,正文的内容表达文档的力量弱。 因此,将N层向量空间模型应用在Web信息检索时,可将一篇Web文档根据指向文档的链接、标题和正文划分成3层(若Web页面中有lt;meta keywordgt;等标记的关键字部分,则可划分为4层向量空间模型。)。 2 应用N层向量空间模型进行Web信息检索 2.1 文本向量表示形式的改进 向量空间模型在建完索引以后,要依据每一个特征项求其对于每一篇文档和查询的权重值。其计算量特别大,并且每一篇文档和查询的向量表示式为,其中大多数项都为零,所以导致了数据稀疏现象。另外由于Web页面的超链性(hyperlink),页面上显示的信息有许多是和本页内容无
显示全部
相似文档