多视点视频的编码技术综述.docx
文本预览下载声明
多视点视频的编码技术综述摘要:阐述了多视点视频(MVC)的几种编码技术,包括其发展过程和主要原理并且比较这几种方法的优劣,以及提出了MVC在未来的可能的发展方向和研究思路。关键词:综述;多视点视频编码;算法;3d场景;时间相关性;视点间相关性;视差估计;运动估计1 引言: 多视点视频指的是由不同视点的多个摄像机从不同视角拍摄同一场景得到的一组视频信号,是一种有效的3D视频表示方法,能够更加生动地再现场景,提供立体感和交互功能。多视点视频可广泛应用于任意视点视频、二维电视、交融式会议电视、远程医学诊疗、虚拟现实以及视频监视系统等多种正在兴起的多媒体业务。[1] 与单视点视频相比,多视点视频的数据量随着摄像机的数目增加而线性增加。巨大的数据量己成为制约其广泛应用的瓶颈,为此,ITU-T和MPEG的联合视频组(JVT, joint video team)提出了多视点视频编码(MVC, multiview videocoding)的概念。MVC主要致力于多视点视频的高效压缩编码,是未来视频通信领域中的一项关键技术,也是国际视频标准化组织,在研究的热点问题。[1]多视点视频最为显著的特点在于视间的相关性。在传统的单视点视频编码中,通常采用去除时间相关性和空间相关性的混合编码方式,运动估计(Motion Estimation)/运动补偿(Motion Compensation}、帧内预测、帧间PB预测、多参考帧(Multi-reference frames)预测,DCT或DWT变换等是最为常用的编码技术,这些技术也被众多视频编码国际标准如H.26X[11]/ MPEG-X所采用。MVC除采用传统的单视点视频混合编码技术之外,进一步采用视差估计(Disparity Estimation)/视差补偿(Disparity Compersation)[8]、深度图技术(Depth Image)等来提高多视点视频的压缩效率。此外,多视点视频分布式编码、多视点视频的码率控制技术等也被应用到多视点视频编码之中。总之,要想多视点视频系统在实际生活中得到广泛的应用,仅通过提高网络带宽和扩大存储容量是远远不够的,还必须提高系统的整体编码性能。[6]基于H.264架构的编码框图 [5]2.国内外研究现状2.1视频编码技术概况[2,3,5] 原始视频的数据量虽然巨大,但它们在时域、空域、以及统计上都存在大量的信息亢余。从20世纪中期以来,由于数据压缩技术的发展和完善,极大的推动了视频编码技术的前进。一些经典的视频编码技术随之出现,主要技术分为以下几个方面:预测编码预测编码就是利用像素的相关性计算预测值,并对实际值和预测值之间的差异进行编码。预测编码按预测方法可以分为线性预测编码和非线性预测编码。[17]变换编码变换编码[16]就是将空域图像信号变换到另一个正交矢量空间中,然后对转换后的系数进行量化和编码。在目前所有的变换算法中,以Ahmed等人[6]于1974年提出的离散余弦变换(Discrete Cosine Transform, DCT)对视频编码算法最为重要。随着1977年Chen等人[5]以及1987年Hou等人[2]提出了针对DCT的一些快速算法,DCT很快被各种视频编码标准所采用。熵编码 嫡编码是利用信源的统计特性进行数据压缩,它是一种无损压缩编码技术。常用的嫡编码有霍夫曼编码、算术编码和游程编码。2.2多视点视频编码技术特点[13,20]:(1)预测结构;(2)运动跳过模式及其改进算法;(3)亮度和色度补偿技术;(4)视差合成预测.3.多视点视频编码的关键技术及主要研究内容3..1 MVC预测技术为了在多视点视频系统中提高编码效率以及随机访问性能,需要设计合理的预测结构,并采用多种预测技术来减少编码帧在时间和和空间上的相关性。[7]3.2 DMVC的边信息生成技术DMVC的关键技术就是如何准确估计边信息。分布式视频编码中的边信息用于接收端的信道解码和重建视频,是对当前WZ帧的预测,相当于传统编码中对P帧或B帧的预测,只是预测是在解码端进行的,因此DMV将编码端的计算复杂度移到了解码端。预测精度越高,说明边信息与WZ帧越接近,经过信道解码后误码率就越低,依据边信息重建的视频效果越好。[10] 多视点分布式视频编码的边信息,可以利用同一视点视频序列的时间边信息和不同视点视频序列的视间边信息共同生成,或将从不同视点视频图像进行融合得到更加准确的边信息。[7]3.3深度图像高效编码 深度图像表示场景中对象的深度信息,其统计特性有别于传统的2D图像,同时其在解码端不是为了显示,而是为了辅助合成任意视点,因此在设计编码方法时就要充分考虑到深度图像的特性。在[5,9,14,17,19,20]中都提出了相应的保护图像对象边缘信息的编码技术,主要有一下几
显示全部