文档详情

数字音视频处理 课件 第8章 基于内容的音频、图像、视频检索技术.pptx

发布:2025-05-11约2.2万字共141页下载文档
文本预览下载声明

第8章基于内容的音频、图像、

视频检索技术;

8.1多媒体信息检索概述;

不同于以往的数据检索,信息检索既不具有明确的条件定义(如正则表达式等),也不具有良好的结构性和非歧义性;相反,它具有一定的容错性和基于任务的导向性。信息检索的基本处理框架如图8-1所示。;

;

8.1.2多媒体信息检索

多媒体信息检索是指从各种不同种类的复杂媒体资源中寻找所需要的信息或知识的过程,它是信息检索中非常重要的组成部分。与传统的信息检索相比,多媒体信息检索主要有两方面的不同。

首先,多媒体资源的结构比起以往典型的文本数据而言更为复杂,需要对大量高维数据进行处理,因此这就需要“多媒体数据处理系统”来表示、存储和访问它们。;

其次,多媒体资源的检索是基于相似度比较的,因此它的输入、输出方式都是多模态的,不再是以往纯文本的输入、输出方式,这就需要对查询需求等提出更高的要求,如MPEG-7就提出了非常详尽的多媒体描述方法。多媒体信息检索的基本框架如图8-2所示。它包括多种媒体资源,常见的如图像、音乐、影视和动画等。;

;

最为流行的检索就是基于内容的检索,基于内容的检索主要有以下类型。

1)文本检索

文本检索通过关键词进行标引,并采用传统的数据库技术来实现管理和检索。然而,关键词标引工作量大,而且标引同用户的检索概念不一致,导致查准率和查全率较低。因此,就需要直接对文本进行任意词和字的检索。根据实现方法的不同,其检索技术可分为串搜索、串匹配和全文检索,它们以字、词及其逻辑组合为条件进行查询。;

2)音频检索

音频检索利用声学和主观的特性来进行查询。声音的一些感知特性,如音调、响度和音色等,与音频信号的测量属性非常接近,因此,可在音频数据库中记录这些特征,并利用这些特征进行示例和特定特征值查询。;

3)图像检索

图像检索主要依据图像的颜色、纹理、形状特征以及图像中子图像的特征进行检索。其中包括:颜色查询帮助用户查到与用户所选择的颜色相似的图像;纹理查询则帮助用户查到含有相似纹理的图像;使用形状查询的用户选择某一形状或勾勒一幅草图,利用形状特征(如区域、主轴方向、矩、偏心率、圆形率和正切角等)或匹配主要边界进行检索;图像对象查询是对图像中所包含的静态子对象进行查询。;

4)视频检索

视频可用场景、镜头、帧来描述。帧是一幅静态的图像,是组成视频的最小单元。镜头是由一系列帧组成的一段视频,它描绘同一场景,表示的是一个摄像机操作、一个事件或连续的动作,而一个镜头则是由一个或多个关键帧表示的。场景包含多个镜头,针对同一批对象,拍摄的角度不同,表达的含义也不同。基于关键帧的检索对代表视频镜头的关键帧进行检索。关键帧的获取可以采用与图像检索相似的方法。一旦检索到目标关键帧,就可以播放这些关键帧来观看它所代表的视频片段了。;

8.2基于内容的音频检索;

静态音频信息是指那些以某种格式保存在文件或数据库中,且可一次性全部获取的音频数据,如以WAV格式保存的语音数据、以MP3格式保存的歌曲等。

动态音频信息是指以数据流的形式出现的、不可预知的音频信息,即实时音频流信息,如广播、电视节目伴音、通信会话中的语音以及网络流媒体中的音频流等。;

不同类型的音频具有不同的音频内容。从整体来看,音频内容可分为四个级别:最底层的物理样本级、中间层的声学特征级、感知特征级和最高层的语义级,如图8-3所示。;

;

8.2.1国内外研究现状

国内的一些研究单位已相继开展了基于内容的音频检索研究,并开发了一些实验系统。主要有浙江大学人工智能研究所对基于内容的音频检索、广播新闻分割等领域进行了深入的研究。中科院声学所信利语音实验室在语音的分类和检索、哼唱检索方面也进行了较为深入的研究,并开发出了相关产品。清华大学计算机科学与语音实验室在语音方面开展了相关研究工作。;

从目前的研究状况来看,基于内容的音频检索,一般分为音频特征提取、音频识别分类和检索三个过程。在提取音频特征之前,一般还需要对音频数据进行预处理,预处理主要包括预加重和加窗,预加重提高音频高频部分抗干扰能力,加窗使音频数据形成音频帧。预处理是音频检索的基础。特征提取是提取音频的物理、听觉或语义特征,是以音频帧为单位或者以若干个帧组成的音频片段为单位来进行。音频识别和分类是对音频进行归类划分,分类本身可以是一种检索方式,也可以作为检索的一个辅助手段。;

一般来说,分类越精确,检索就越准确。检索的过程是一个匹配的过程,根据音频特征间的相似度给出检索结果。检索系统一般分为两部分:一部分是生成数据库,即音频数据及其特征录入到数据库;另一部分是查询数据库,即用户通过输入音频或特征字符串在数据库中查找所需要的音频。基于内容的音频检索系统的基本结构如图8-4所

显示全部
相似文档