基于XML文档检索的存储研究与实现 .pdf
维普资讯
2007年第5期计算机系统应用
基于XML文档检索的存储研究与实现
ResearchontheXMLdocumentstorageandimplement
朱艳红(石家庄邮电职业技术学院计算机系石家庄050021)
何东彬(石家庄学院计算机系石家庄050035)
摘要:因特网诞生以来,网络信息资源急剧增长,如何利用数据检索技术有效的发现和使用资源成为急待解决的
问题。对如何更好的检索XML等结构文档,已经作了大量的研究,提出了许多有效的查询方法,但目前对结构文
档的索引结构及存储的研究却比较少,因此本文探讨了XML文档检索模型存储结构的主要技术问题,并提出了
对置入表进行压缩编码的一种基于数据库存储的方案。
关键词:XML检索索引存储
1引言树属于同一类,即同一类型的逻辑文档。由于逻辑文
经过近些年的发展,扩展标记语言(XML)正在成档的存在,因此可提供不同粒度的查询,所以逻辑文档
为英特网上数据表示、交换和集成的标准。XML是一成为检索结果所能返回信息的最小单位。那么在对文
种结构化文档,物理形式上有着与其所表达的内容相档结构索引的阶段,应该包含文本节点对于逻辑文档
对应的组织结构和层次关系,XML文档的语义信息存的归属信息。
在于文档的文本与结构之中。
传统信息检索返回信息的最小单位是整个文档。3索引模型
但许多时候,用户关心的不是全文,而只是文档中的某主流的全文索引模型有倒排索引(Invertedin—
个部分。我们大概都有类似的经历,面对过于简单dex)、署名文件、位图、Pat数组。目前来说,倒排索
一
的查询手段和返回来的无穷尽的检索结果,不得不再引模型实现相对简单、查询速度快、容易支持同义词查
次依靠人力在返回的整篇文档中寻找关注信息,有可询,应用比较广泛和成熟,被大部分商用搜索引擎所采
能在发现结果前就已经失去耐心。如何改变我们所面用,因此本文选用倒排模型。
临的“富数据,穷信息”的窘境,就要求使用一种有效的倒排索引是受到书目索引的启发而派生出来的,
方式对结构化文档的内容和层次结构进行检索,并以它由一系列“关键字一指针”对组成。关键字实际上是
种恰当的方式返回不同粒度的结果,即整篇文档中索引的查找键,包括文本集中出现的所有词项(停用词
一
用户感兴趣的那一部分,而非全部。目前,对结构文档除外)。指针指向的是该词项在文本集中出现的所属
的检索已经做了许多工作,许多检索方法非常有效,但文档、频率、位置。
对结构文档的索引结构及存储的研究却比较少…,然
而,这一部分非常重要,对检索性能的影响很大,因此4存储方式
本文着重解决这方面的问题。