文档详情

信息管理和信息系统第2章.ppt

发布:2017-06-15约2.49万字共117页下载文档
文本预览下载声明
2.5.2 邻近结点模型 Navarro和Baeza-Yates提出了一种新的模型,该模型允许在相同文档的文本上定义独立分层(非扁平的)索引结构。每个索引都有严格的层次结构,即由章、节、段、页、行所组成,这些结构单元通常称之为结点,如下图所示。每个这样的结点都与一个文本区域相关。此外,两个不同的层次结构可能会涉及到重叠的文本区域。 对于涉及不同层次结构的用户查询而言,所汇集的结果只能由来自其中一个层次结构的所有结点形成。因此,最终结果不能由两个不同层次的结点所组成,这样做的目的是允许以较少的表达式获得较快的查询处理。然而应该考虑到,由于结构是层次型的,在结果集中允许出现来自于相同层次的嵌套文本区域。 * 2.5.2 邻近结点模型 结构化单元的层次索引和词的扁平索引 * 2.5.2 邻近结点模型 上图给出了一个具有4个层次的层次索引结构,它们分别对应于同一篇文档中的章、节、子节和子子节,图中还给出了词“大爆炸”的倒排列表。倒排列表中的项,列出了文档文本中所有出现单词“大爆炸”的位置。在这个层次结构上,每个结点指明了结构化单元(如章、节、子节、子子节)在本文中的位置。 * 2.5.2 邻近结点模型 查询语言允许为字符串检索指定正则表达式,通过名称(如搜索章节)来引用结构成分,也可以是它们的组合。从这种意义上来说,可以把这个模型看成是表达与高效之间的一种折中。查询语言的某些限制性表达,允许首先搜索出那些与查询中指定的字符串相匹配的单元,然后判定哪些单元满足查询的结构部分的要求,这样可以提高检索过程的效率。 * 2.5.3 扁平浏览模型 扁平浏览模型的思想是假设用户浏览一个扁平组织结构的文档空间。例如,文档集可以被描述为二维平面上的点或是一维链表中的元素。然后用户在这些文档上到处浏览,以查找相关信息。例如在相关反馈过程中,用户通过在相邻文档之间的浏览,查找出相关的资料,或找出一些感兴趣的关键词。这些关键词将被加入原始查询中,以提供更好的上下文,从而构造新的查询。用户也可以以扁平的方式,浏览单个文档。例如,他利用浏览器的窗口,用滚动条和鼠标箭头浏览一个Web页面。该模型的一个缺陷是:在给定的页面和屏幕上,可能没有关于用户所处上下文情况的任何提示。例如,用户随意打开一本小说中的某一页,他不知道这一页是属于哪一章的。 * 2.5.4 结构导向模型 为了对浏览的任务提供更好的支持,文档应该被组织成为像目录那样的结构。如有些Web搜索引擎(如Yahoo!),除标准检索界面外,还提供了可以用于浏览和频繁查询的层次目录。目录是类的层次结构,将文档按照相关主题来分类和组织。用这样的类层次对文档进行分类,已经有几百年的历史了。因此很自然地采用它作为现代浏览的界面。在这种情况下,我们说用户执行一个具有结构导向的浏览。同样的思想可以用于单个文档。例如,如果我们浏览一本电子书,第一个层次内容可能是章,第二个层次是所有的节,第三个层次是所有的段落等等。最后的层次可能是文本本身(扁平)。一个好的用户界面能够以变焦的方式上下查看这些层次,指导用户的浏览过程,并保持上下文的线索。 * 2.5.4 结构导向模型 除了用于浏览任务导向的结构外,界面也可以提供一些其他的工具如历史地图,用来指明最近访问过的类,这对于浏览结构庞大的文档集是很有用的。在检索时,通过表明事件发生来表示出这种结构(如采用内容表格的方法),这使我们能在全部文档上下文中看到事件的发生,而不是文本的某一页——以至于不清楚我们处在文档的哪个位置。 * 2.5.5 超文本模型 传统的与文本书写任务有关的概念是顺序,写作的顺序通常被认为是阅读的顺序,读者也不期待通过随机地阅读某段文本而全部理解作者的思想。人们需要以来文本结构来跳过文本的部分章节,但这会造成读者与作者之间的交流障碍。因而,大多数书面文本采用顺序组织结构。当读者不能接受这样一个结构的规则时,他就通常不能把握作者寓意的主要思想。 超文本是一个允许以非顺序的方式在计算机屏幕上浏览文本的高层交互式导航结构。它由结点和链所组成,结点之间的关系用链表示,结点和链构成一个有向图结构。 * 2.5.5 超文本模型 对于超文本来说,每个结点都与一个文本区域相关,这个区域可能是书中的章,或文章中的节,或是一个Web页面。两个结点A、B被一条有向链接lAB相连接,说明与这两个结点相关联的文本具有某种联系。这样,读者在阅读结点A中的文本时,就可以跳转到相关联的结点B中的文本。 超文本的导航过程可以被理解为遍历一个有向图的过程。图中被链接的结点表示文本结点之间具有某种语义关联。当遍历这个图时,读者便可想象出由超文本设计者所构思出的信息流。 * 2.5.5 超文本模型 当超文本很大时,用户可能会失去超文本组织结构的路线,其结果,用户进行错误的导航决策,并偏离他
显示全部
相似文档