文档详情

2011年第3次课 数据集成new.ppt

发布:2017-06-09约1.09万字共78页下载文档
文本预览下载声明
数据集成中的模式匹配 模式匹配基本概念 中间模式 源模式 源模式 源模式 包装器 包装器 包装器 数据源 数据源 数据源 数据源模式匹配 第3章 数据集成 模式匹配基本概念 数据互操作和共享的冲突 冲突的产生主要来源于数据源的异构性,按照一般的分类, 可以将异构性划分为四个层面:系统、语法、结构、语义。 系统层面的异构性主要考虑系统软、硬件差异带来的异构性。 在模式集成领域,对异构性的研究主要包括在后三个层面上, 即语法、语义和结构层面。因此模式集成方法和技术的研究主要 集中在对上述三个层面的研究工作中。 第3章 数据集成 模式匹配的主要技术 我们对相关文献按照语法、语义、结构三个层面进行了分 析,归纳出模式匹配的主要技术如下: (1)语法层面,采用的技术主要包括 基于字符的匹配映射方法; 基于表示语言的匹配映射方法等。 (2)结构层面,采用的技术主要包括 基于约束的匹配映射方法; 基于图的匹配映射方法; 基于分类的匹配映射方法等。 (3)语义层面:采用的主要技术包括 基于本体的匹配映射方法; 基于模型的匹配映射方法等。 模式匹配基本概念 第3章 数据集成 模式匹配的主要技术 模式匹配基本概念 语法层面的研究工作开展比较早,其中基于字符的匹配映 射方法主要采用的技术有前缀匹配技术、后缀匹配技术、编辑 距离技术和n_gram技术等。这些方法都以字符串匹配为基础, 通过对局部模式元素的匹配确定映射集合。 基于表示语言的匹配映射方法利用标识器标识字符序列, 主要方法有标记技术、基本形式技术、去处技术等,利用局部 模式的约束定义实体,并增加了数据类型比较和多样性比较。 这类技术采用的基本思想是:模式元素的相似性越强,其匹配 的可能性就越大。 主要问题是没有充分利用领域知识,不能对领域中经常出现 的问题的解决,如对同名异义及异名同义的模式元素的识别等。 语法层面研究 第3章 数据集成 模式匹配的主要技术 模式匹配基本概念 结构层面研究(1) 结构层面的研究工作中基于图的匹配映射技术主要采用的 方法包括:图匹配法,孩子节点匹配法,叶子节点匹配法以及 节点关系匹配法。该技术将输入看作是可标记的图。其基本思 想是:模式匹配可以看作是具有像图一样的结构,包含了条件 和相互关系,对两个模式的节点对的相似性主要是基于它们在 图中的位置。如果来自两个模式的节点具有相似性,则其邻节 点具有相似性的概率较高。 第3章 数据集成 结构层面另外一个重要的研究领域为基于分类的匹配映射 技术,该技术实际上也是一种图算法,其主要思想是考虑图上 的特殊关系,通过分类所产生的具有IS-A关系的组之间具有相 似关系,并且由此推断其相邻节点的组存在相似性。主要技术 包括有限路径匹配法和超集子集匹配法。图的匹配问题涉及到 组合问题,因此当前该方面的研究主要在解决组合爆炸问题, 减少系统开销。 结构层面研究(2) 模式匹配的主要技术 模式匹配基本概念 第3章 数据集成 语义层面的研究是目前国内外模式匹配最活跃的研究领域, 目前的趋势是利用语法层面和结构层面的研究成果,从语义层面 加以改进和利用。目前主要的技术包括基于模型的匹配映射方法 和基于本体的模式映射方法。其中基于模型的方法主要包括命题 满足法和逻辑推理法。主要思想是将图(树)的匹配问题分解为 节点集合的匹配问题,节点之间可以存在对等关系,将匹配问题 转化为命题形式并校验其合法性。 语义层面研究(1) 模式匹配的主要技术 模式匹配基本概念 第3章 数据集成 语义层面研究(2) 模式匹配的主要技术 模式匹配基本概念 基于本体的方法主要利用外部知识源参与并帮助发现模式元素 之间的匹配,目前基于本体的方法,在CARNOT项目的CYC本体被 用于替代了全局模式。CARNIOT项目需要管理员手动将模式映射 到全局本体。全局需求因此也针对本体提出。MOMIS系统半自动 实现全局模式构建,方法是使用WORDNET作为一个词汇参考数据 库获取并手工标注模式。使用WORDNET允许系统模式间的词汇关 系和结构关系。类似使用WORKDNET这样的大型本体的问题在于 它具有太强的一般性,不是针对某个领域,并且没有建模实体间的 关系。将本体作为全局模式主要的问题是如何实现本体与模式之间 的匹配映射,当前主要的方法是采用基于规则和基于学习的方法。 基于规则的方法较容易获得并且不需要进行复杂的学习。由于基于 规则的方法通常只对模
显示全部
相似文档