文档详情

网络多媒体技术复习 第7章 数字音频编码技术及标准.ppt

发布:2017-03-07约1.22万字共74页下载文档
文本预览下载声明
MPEG-4音频编码器支持数据率介于2 kbit/s和64 kbit/s之间的自然音频(natural audio)。 MPEG-4定义了三种类型的音频编码器分别用于不同类型的声音: 参数编码器, 使用参数编码技术。对于采样率为8 kHz的话音(speech),编码器的输出数据率为2~4 kbit/s;对于采样频率为8 kHz或者16 kHz的声音(audio),编码器的输出数据率为4~16 kbit/s。 CELP编码器, 使用CELP技术。编码器的输出数据率在6~24 kbit/s之间,它用于采样频率为8 kHz的窄带话音或者采样频率为16 kHz的宽带话音。 T/F编码器, 使用时间-频率(time-to-frequency,T/F)技术。这是一种使用矢量量化(VQ)和线性预测的编码器,压缩之后输出的数据率大于16 kbit/s,用于采样频率为8 kHz的声音信号。 MPEG-4 音频编码标准 MPEG-4 音频编码标准 7.1 数字音频压缩编码概述 7.2 常用数字音频编码技术 7.3 MPEG-1音频编码标准 7.4 MPEG-2 AAC音频编码标准 7.5 中国制定的音频编码标准 第7章 数字音频编码技术及标准 7.5.1 AVS音频立体声编码标准 7.5.2 DRA多声道数字音频编解码标准 7.5 中国制定的音频编码标准 背景: AVS音频标准是AVS标准族的一个部分,文档编号是AVS-P3。AVS 音频标准除了采用北京三星通信技术有限公司的CBC熵编码技术、北京芯晟科技有限公司的PQ-SPSC立体声处理技术外,其余技术全部使用了EVD音频标准的内容,包括FLPVQ、2级MDCT分析等。 7.5.1 AVS音频立体声编码标准 AVS 音频编码器支持8~96 kHz采样频率的单/双声道PCM音频信号作为输入信号,编码器编码后输出码率为16~96 kbit/s/channel,在64 kbit/s/channel编码时可以实现接近透明音质,编码后文件可以压缩为原来的1/10~1/16。 输入的PCM数据经过长/短窗判决、Int MDCT、SPSC立体声编码、量化、CBC熵编码模块后,打包成符合AVS 音频标准的比特流。 7.5.1 AVS音频立体声编码标准 AVS 音频立体声编码框图 AVS 音频立体声解码框图 为满足不同的应用需求,AVS音频编码技术主要采用两种档次: ① Main Profiles: 高质量,高复杂度。 ② Scalability: 可分级的码率和编码质量,编码比特流由基本层和多个增强层组成,这样可以在最小音质损失情况下,动态地自适应网络带宽的变化以及用户终端的解码能力,极大地方便了系统的灵活性。 AVS音频的档次 AVS音频和MPEG ACC技术的比较 编码效率: Main Profile可以获得与MPEG ACC LC Profile相当或更高的编码质量。 编码复杂度: Main Profile编码运算复杂度高于MPEG ACC LC Profile。 解码复杂度: Main Profile解码运算复杂度高于MPEG ACC LC Profile。 可分级性: MPEG ACC不支持。 DRA 数字音频编解码技术采用自适应时频分块(Adaptive Time Frequency Tiling,ATFT)方法,实现对音频信号的最优分解,进行自适应量化和熵编码,具有解码复杂度低、压缩效率高、音质好等优点,可广泛应用于数字音频广播、数字电视、移动多媒体、激光视盘机、网络多媒体以及在线游戏、数字电影院等领域。 7.5.2 DRA多声道数字音频编解码标准 * * * * * * * * * * * * * * * * * * * * 以语音生成模型为基础,在发端分析提取表征音源和声道的相关特征参数,通过量化编码将这些参数传输到收端,在收端再应用这些特征参数重新合成为语音信号。 7.2.1 线性预测编码 2. 语音信号分析合成 在 线性预测编码(LPC)中,将语音信号简单地划分为浊音信号和清音信号。清音信号可以用白色随机噪声激励信号来表示,浊音信号可以用准周期脉冲序列激励信号来表示。 由于语音信号是短时平稳的,根据语音信号的短时分析和基音提取方法,可以用若干的样值对应的一帧来表示短时语音信号。 在LPC声码器的发送端,原始语音信号送入A/D变换器,以8kHz采样变成数字化语音信号。以180个采样样值为一帧,对应帧周期为22.5ms,以一帧为处理单元进行逐帧处理。完成每一帧的线性预测系数分析,并作相应的清/浊音(u/v)处理、基音周期(Tp)提取,再对这些参量进行量化、编码并送入信道传送。在接收端,经参量译码分出参量ai、G、Tp、u/v,以这些参数作为合成语声信号的参量,最后将合成
显示全部
相似文档