多模态信息处理.pdf
文本预览下载声明
多模态信息处理研究进展、现状及趋势
1. 任务定义、目标和研究意义
多模态(multimodality)的概念起源于计算机人机交互领域信息表示方式的
研究,其中术语“模态”一词被定义为在特定物理媒介上信息的表示及交换方式。
在研究中人们发现,用语言、视频、音频等媒体指称来描述信息表示方式过于宽
泛、粒度太大,不足以区分实际采用的表示方式,为此引入了比媒体(或媒介)
更细粒度的“模态”概念。而多媒体媒介可以分解为多个单模态,如视频作为一
种多媒体媒介,可以分解为动态图像、动态语音、动态文本等多个单模态。为了
模态概念定义的科学性和实用性,单模态的分类必须满足完整性、正交性、关联
性和直观性的要求。在同一事物上多类单模态信息共生或共现的现象是十分普遍
的。人与人交谈时有声语音与文字文本是共生的;互联网网页中图片与其对应的
解说文字是共现的,凡此等等。共生或共现的多种单模态信息的统称即所谓的多
模态信息。融合多种单模态的信息处理即所谓的多模态信息处理,其中涉及对多
模态信息的获取、组织、分析、检索、理解、创建等。
多模态信息处理技术主要应用于对象识别、信息检索、人机对话等与智能系
统及人工智能相关的领域。大量研究成果显示,基于多模态理念的信息处理算法
和方法,往往会得到比传统方法更好的性能和效果。例如,语义计算相关领域基
于指称语义的研究发现,采用语言表达式的视觉指称(即一组图片)来定义指称
相似性度量,在某些语义推导任务中,效果好于基于纯文本的分布式语义表示;
情感计算领域相关研究发现,不同模态的数据在情感表达中具有互补性,在愉悦
度表达方面文本模态优于音频模态,而在激活度表达方面音频模态则优于文本模
态。在基于内容的多媒体信息检索领域,针对基于内容的视音频检索中的语义鸿
沟问题,利用与视音频数据共生或共现的文本信息,进行多模态的语义分析和相
似性度量,是克服语义鸿沟问题的一种十分有效的方法。以媒体为单位的跨媒体
信息处理任务,普遍存在语义鸿沟问题,所处理信息对象的语义,无论是基于外
延语义 (指称语义)还是内涵语义(关联语义)概念,在单一媒体信息范围内得
不到完整或最终表达,而多模态信息处理方法为该问题的解决提供了新的思路和
方法。
2. 研究内容和关键科学问题
多模态信息处理是在文本、图像、音频等现有单媒体信息处理的基础上发展
起来的,现有单媒体数据的处理方法是多模态数据处理的基础。例如在特征提取
层面,针对文本、图像、音频等单模态数据,往往直接利用成熟的文本、图像、
音频特征提取方法来实现。多模态信息处理特有的研究内容主要关注于多模态信
息的建模、获取、融合、语义度量、分析、检索等方面。
2.1 多模态信息建模
如何科学、严谨的定义单模态信息,是多模态信息建模要解决的问题。由于
用媒体方式界定人机交互方式粒度太大,从而引入了模态的概念。所谓多模态信
息建模,就是要构建一个单模态的分类体系,在该分类体系中,各单模态类别之
间满足完整性、正交性、关联性和直观性的要求。Niels Ole Bernsen 2008 年基
于前人的工作,在“多模态理论(Multimodality Theory)”一文中给出了一个满
足这些要求的单模态的分类体系,如表1 所示。
表1 一个输入/输出模态的分类
顶层 通用层 原子层 亚原子层
1 静态拟真图形元素
2 静-动态拟真声音元素
3 静-动态拟真触觉元素
4 动态拟真图形 4a.静动手势话语
4b.静动手势关键字
4c.静动手势符号
5 静态非拟真图形 5a.书面文本 5a1.打印文本
5a2.手写文本
5b.书面关键字
显示全部