文档详情

多模态信息处理.pdf

发布：2019-01-15约1.07万字共14页下载文档

文本预览下载声明

多模态信息处理研究进展、现状及趋势 1. 任务定义、目标和研究意义多模态（multimodality）的概念起源于计算机人机交互领域信息表示方式的研究，其中术语“模态”一词被定义为在特定物理媒介上信息的表示及交换方式。在研究中人们发现，用语言、视频、音频等媒体指称来描述信息表示方式过于宽泛、粒度太大，不足以区分实际采用的表示方式，为此引入了比媒体（或媒介）更细粒度的“模态”概念。而多媒体媒介可以分解为多个单模态，如视频作为一种多媒体媒介，可以分解为动态图像、动态语音、动态文本等多个单模态。为了模态概念定义的科学性和实用性，单模态的分类必须满足完整性、正交性、关联性和直观性的要求。在同一事物上多类单模态信息共生或共现的现象是十分普遍的。人与人交谈时有声语音与文字文本是共生的；互联网网页中图片与其对应的解说文字是共现的，凡此等等。共生或共现的多种单模态信息的统称即所谓的多模态信息。融合多种单模态的信息处理即所谓的多模态信息处理，其中涉及对多模态信息的获取、组织、分析、检索、理解、创建等。多模态信息处理技术主要应用于对象识别、信息检索、人机对话等与智能系统及人工智能相关的领域。大量研究成果显示，基于多模态理念的信息处理算法和方法，往往会得到比传统方法更好的性能和效果。例如，语义计算相关领域基于指称语义的研究发现，采用语言表达式的视觉指称（即一组图片）来定义指称相似性度量，在某些语义推导任务中，效果好于基于纯文本的分布式语义表示；情感计算领域相关研究发现，不同模态的数据在情感表达中具有互补性，在愉悦度表达方面文本模态优于音频模态，而在激活度表达方面音频模态则优于文本模态。在基于内容的多媒体信息检索领域，针对基于内容的视音频检索中的语义鸿沟问题，利用与视音频数据共生或共现的文本信息，进行多模态的语义分析和相似性度量，是克服语义鸿沟问题的一种十分有效的方法。以媒体为单位的跨媒体信息处理任务，普遍存在语义鸿沟问题，所处理信息对象的语义，无论是基于外延语义（指称语义）还是内涵语义（关联语义）概念，在单一媒体信息范围内得不到完整或最终表达，而多模态信息处理方法为该问题的解决提供了新的思路和方法。 2. 研究内容和关键科学问题多模态信息处理是在文本、图像、音频等现有单媒体信息处理的基础上发展起来的，现有单媒体数据的处理方法是多模态数据处理的基础。例如在特征提取层面，针对文本、图像、音频等单模态数据，往往直接利用成熟的文本、图像、音频特征提取方法来实现。多模态信息处理特有的研究内容主要关注于多模态信息的建模、获取、融合、语义度量、分析、检索等方面。 2.1 多模态信息建模如何科学、严谨的定义单模态信息，是多模态信息建模要解决的问题。由于用媒体方式界定人机交互方式粒度太大，从而引入了模态的概念。所谓多模态信息建模，就是要构建一个单模态的分类体系，在该分类体系中，各单模态类别之间满足完整性、正交性、关联性和直观性的要求。Niels Ole Bernsen 2008 年基于前人的工作，在“多模态理论(Multimodality Theory)”一文中给出了一个满足这些要求的单模态的分类体系，如表1 所示。表1 一个输入/输出模态的分类顶层通用层原子层亚原子层 1 静态拟真图形元素 2 静-动态拟真声音元素 3 静-动态拟真触觉元素 4 动态拟真图形 4a.静动手势话语 4b.静动手势关键字 4c.静动手势符号 5 静态非拟真图形 5a.书面文本 5a1.打印文本 5a2.手写文本 5b.书面关键字

显示全部

相似文档