语音编码技术
扫描二维码
随时随地手机看文章
对语音进行编码的目的是为了将语音数字化并利用人的发声过程中存在的冗余度和人的听觉特性来降低编码率。
1.1编码的重要性编码、传输、存储和译码是语音数字传输和数字存储的必要过程。随着语音通信技术的发展,压缩语音信号的传输带宽,增加信道的传输速率,一直是人们追求的目标。语音编码在实现这一目标的过程中担当重要的角色。语音编码就是使表达语音信号的比特数目最小。
1.2编码速率用比特/秒(b/s或bps)来度量,用I表示,I=R·fs,R代表每个语音采样值编码所需的比特数;fs是采样频率。当fs=8kHz,每个采样值用8比特位来编码,则编码速率为64kb/s。
语音编码就是对模拟的语音信号进行编码,将模拟信号转化成数字信号,从而降低传输码率并进行数字传输,语音编码的基本方法可分为波形编码、参量编码(音源编码)和混合编码,波形编码是将时域的模拟话音的波形信号经过取样、量化、编码而形成的数字话音信号,参量编码是基于人类语言的发音机理,找出表征语音的特征参量,对特征参量进行编码,混合编译码是结合波形编译码和参量编译码之间的优点。波形编译码器虽然可提供高话音的质量,但数据率低于16kb/s的情况下,在技术上还没有解决音质的问题。
2.1波形编码基本原理是在时间轴上对模拟话音信号按照一定的速率来抽样,然后将幅度样本分层量化,并使用代码来表示。在接收端将收到的数字序列经过解码恢复到原模拟信号,保持原始语音的波形形状。话音质量高,编码速率高。如PCM编码类(a率或u率PCM、ADPCM、ADM),编码速率为64-16kb/s,语音质量好。波形编码的目的在于尽可能精确地再现原来的语音波形,并以波形的保真度即自然度为其质量的主要度量指标,但波形编码所需的码速率较高。
2.2参数编码根据语音信号产生的数学模型,通过对语音信号特征参数的提取后进行编码(将特征参数变换成数字代码进行传输)。在接收端将特征参数,结合数学模型,恢复语音,力图使重建语音保持尽可能高的可懂度,重建语音信号的波形同原始语音信号的波形可能会有相当大的区别。如线性预测(LPC)编码类。编码速率低,2.4-1.2kb/s,自然度低,对环境噪声敏感。这种语音编码的主要质量指标是可懂度,参量编码可以将语音编码以后的速率压得很低。
2.3混合编码(Hybridcoding)将波形编码与参数编码相结合,在2.4-1.2kb/s速率上能够得到高质量的合成语音。混合编码把波形编码的高质量和参量编码的高效性融为一体,在参量编码的基础上附加一定的波形编码特征,实现在可懂度的基础上适当地改善自然度的目的。用于移动通信中的语音编码一般都是混合编码。选择混合编码时,要使比特率、质量、复杂度和处理时延这4个参量及其关系达到综合最佳化。
2.4语音编码的极限速率语音中最基本的元素是音素,大约有128~256个,如果按通常的说话速度,每秒平均发出10个音素,则信息率为:I=[log2(256)10]bps=80bps把发音看成是以语音速率来传送,则语音编码的极限速率为80bps,从数字化标准的编码速率64kbps,到极限速率80bps,之间的距离,对于理论研究和实践有着极大的吸引力。
语音质量是衡量语音编码算法优劣的关键性能之一。语音质量通常分为四类:(1)广播级:宽带(0-7000Hz)高质量的语音,感觉不出噪声存在(2)网络或电话级:200Hz-3200Hz,信噪比大于30db。(3)通信级:完全可以听懂,但和长途电话相比,有明显失真。(4)合成级:80%-90%可懂度,音质较差,听起来像机器讲话,失去了讲话者的个人特征。语音质量有主观和客观两种评价方法
3.1主观评价方法评价指标:清晰度或可懂度、音质。前者是指语音是否容易听清楚;后者指语音听起来有多自然。(1)可懂度评价DRT:DiagnosticRhymerTest(2)音质评价:MOS:MeanOpinionScore平均意见得分DAM:DiagnosticAcceptabilityMeasure判断满意度得分。MOS得分为五级:优、良、可、差和坏。满分为5分,相当调频广播质量;4分以上是长途电话网标准;3.5分为通信标准;3.0分仍有较好的可懂度,保持自然度;2.5分只维持可懂度,是战术通信标准。