音频编解码器技术
扫描二维码
随时随地手机看文章
语音编解码器技术的发展一定程度上处于静止状态,但音频编解码器技术一直在向前演进(参见图1)。例如,朝更多的环绕声通道发展就是一个趋势。最大的一个技术趋势是增加了用于模拟立体声系统中的多通道音频的技术,以再造特别实况音乐会会场的“现场感”。于是产生了完成所有这些处理的挑战,因为你不再能用依靠AV接收器或DVD播放器内的大功率电源供电的DSP引擎来实现,而必须用靠手机或PDA中的电池供电的DSP引擎来实现。所有上述因素就为两个不同但却融合的应用领域(个人音频和家庭影院)带来了一个有趣的故事。
个人音频
德州仪器公司(TI)便携音频和信息娱乐业务部首席技术官RandyCole指出,在个人音频领域最普遍的音频编码解码器是MP3(参见图2)。MP3一度局限于PC和便携多媒体播放器,但它目前在手机行业中也比比皆是,其原因就是手机制造商不断地追逐新功能,以诱使最终用户每隔六个月就进行一次产品换代。
MP3是ISO公布的一项标准。它是由MPEG制定的MPEG-1编码解码标准系列中的第三个。MPEG-1有三层,每一层都包括前面的层。因而,第3层实现了第1和2层。出于这个原因,MPEG-1及第3层就是众所周知的MP3,它提供了一个适于便携应用的带宽和数据速率,虽然较低却足够了。
在过去10年中,MP3一直是下载音乐的主导性音频编码解码器。但是苹果公司的iPod在一项名为先进音频编码器(AAC)的新MPEG开发项目中打破了这个惯例。MPEG在1990年代中期开始从事AAC标准的制定,将其作为下一代MPEG-2研究的一部分,并实现了AT&T、Dolby、Fraunhof和索尼公司开发的最好最新设计理念。起初,它打算同MP3后向兼容,但这个目标不可能达到。
因此,由于整个行业深深卷入MP3,没有一家公司愿意调拨资源为AAC这个新方案生产大量的音频节目,所以它衰败了。也就是说,直到苹果公司为iPod选择AAC的MPEG-4版本之前,该技术一直处于衰败的状态。(在MPEG-2之后成立的下一个MPEG工作小组是MPEG-4,越过了MPEG-3。苹果公司所用的MPEG-4AAC是MPEG-2AAC的一个强化版本,其数据速率稍低而质量有改进。)
其它专有的编码器存在于MP3和AAC范畴之外。它们在PC和个人多媒体设备领域有一定的穿透性,但它们在手机行业就不太重要,因为手机生产商宁愿标准的编码器及其固定的版税。一种大家熟悉的专有编码器是WindowsMediaAudio(WMA)。它主要用于PC,并在其中与MP3和AAC进行竞争。然而,从数据速率看,它很灵活(从低到高有适当的质量差异)。目前,还有WMA的多频道版本WMA-Pro,而且微软公司在2005年6月还发布了一种损耗更低的WMA。
其它重要的专有编码器就是DolbyDigital,也就是著名的AC3。这种编码器用于DVD和(美国的)数字电视。直到最近,它的运行速率对互联网和手机来说还是太高。不过,需要补救的是一个把数据速率降得更低的新版本。
根据TI公司高性能音频业务部行销经理MohsinImTIaz的观点,在家庭影院领域主要的编码解码器是Dolby和DTS。Dolby公司发布的DolbyDigitalPlus瞄准了高清晰度DVD和广播市场。但是在MP3、AAC、WMA等便携标准之间有一定的交叉。针对下一代DVD,微软公司正在力推WMA。
解析一个编解码器
让我们分解一个编解码器。为了把整个事情说清楚,我们看一篇在2004年10月音频工程学会年会上提交的论文,它描述的是DolbyDigitalPlus技术。
该论文说新的DolbyDigitalPlus编码解码器是基于DolbyDigital的较早版本,也叫AC-3。DolbyDigitalPlus或加强型的AC-3(E-AC-3)保留了元数据载运器、过滤器库和帧结构。目前的数据速率范围从32Kb/s到6.144Mb/s。在采样速率32KHz和六模块转换帧的条件下,数据速率控制的分辨率可达到每秒1/3位。(数据速率的分辨率正比于采样速率,反比于帧的尺寸。)
E-AC-3保留了AC-3的六个256系数转换帧结构,但它允许包含一个、两个和三个256系数转换模块的较短帧存在。其结果就是,音频传输可以在高于6?0Kb/s的速率下进行,这适合于某些限制了每帧数据量的DVD。
E-AC-3可以支持目前的5.1、6.1或7.1频道,进而一直到电影院的13.1频道。主音频节目位流加上多达八个的附加子流经过多路选通进入一个单一的E-AC-3位流。通过频道替换消除了矩阵减法引起的编码失误。与AC-3相比,E-AC-3能多传输七个独立的位流。
编码效率的提高还可以通过一个新的滤波器库、更好的量化、强化的频道耦合、谱扩展和一种名为“瞬态预噪音处理”的技术来实现。
当具有稳定特征的音频出现时,该滤波器库在现有的AC-3滤波器库之后加入一个二级DCT。这把六个256系数转换模块转换成一个单一的1536系数混合转换模块,且提高了频率分辨率。这个提高的频率分辨率与六维向量分量(VQ)及增益自适应分量(GAQ)结合在一起可以改进“难于编码”信号的编码效率,比如说黑管和大键琴。
VQ用于需要较低准确度的频带区。当需要更高准确度分量时,GAQ更有效率。此外,通过频道与相位保存的耦合可以使编码效率得到一个提升。在AC-3用一个高频单合成频道作为每个频道上高频部分的地方,加入相位信息和编码器控制的谱幅度处理能够让这个高频单合成频道处理较低的频率,从而减小了有效的编码带宽并增大了编码效率。
谱扩展是用频域上转换的较低频谱段代替了较高层的频率转换系数。该转换频谱段的谱特征通过转换系数的谱调制与原始的形式匹配。
为了提高低数据速率时的音频质量,E-AC-3采用了瞬态预噪音处理技术。这个后解码过程把预噪音误差降到最低,其做法是采用可缩短预噪音持续时间的时标合成技术,因而降低了瞬态扰动的可听度。由编码器计算并在E-AC-3位流中发送的元数据提供了后解码过程、时标合成处理所需的参数,时标合成处理使用了听觉情景分析技术。