共振峰

时间：2021-12-17 09:14:33

关键字：共振峰语音合成声道

手机看文章

扫描二维码
随时随地手机看文章

[导读]语音合成的理论基础是语音生成的数学模型。该模型语音生成过程是在激励信号的激励下，声波经谐振腔(声道)，由嘴或鼻辐射声波。因此，声道参数、声道谐振特性一直是研究的重点。

语音合成的理论基础是语音生成的数学模型。该模型语音生成过程是在激励信号的激励下，声波经谐振腔(声道)，由嘴或鼻辐射声波。因此，声道参数、声道谐振特性一直是研究的重点。习惯上，把声道传输频率响应上的极点称之为共振峰，而语音的共振峰频率(极点频率)的分布特性决定着该语音的音色。音色各异的语音具有不同的共振峰模式，因此，以每个共振峰频率及其带宽作为参数，可以构成共振峰滤波器。再用若干个这种滤波器的组合来模拟声道的传输特性(频率响应)，对激励源发出的信号进行调制，再经过辐射模型就可以得到合成语音。这就是共振峰合成技术的基本原理。基于共振峰的理论有以下三种实用模型。级联模型在该模型中，声道被认为是一组串联的二阶谐振器。该模型主要用于绝大部分元音的合成。

并联模型许多研究者认为，对于鼻化元音等非一般元音以及大部分辅音，上述级联型模型不能很好地加以描述和模拟，因此，构筑和产生了并联型共振峰模型。

混合模型在级联型共振峰合成模型中，共振峰滤波器首尾相接;而在并联型模型中，输入信号先分别通过幅度调节再加到每一个共振峰滤波器上，然后将各路的输出叠加起来。将两者比较，对于合成声源位于声道末端的语音(大多数的元音)，级联型合乎语音产生的声学理论，并且无需为每一个滤波器分设幅度调节;而对于合成声源位于声道中间的语音(大多数清擦音和塞音)，并联型则比较合适，但是其幅度调节很复杂。基于此种考虑，人们将两者结合在一起，提出了混和型共振峰模型。共振峰模型是基于对声道的一种比较准确的模拟，因而可以合成出自然度比较高的语音，另外由于共振峰参数有着明确的物理意义，直接对应于声道参数，因此，可以容易利用共振峰描述自然语流中的各种现象，并且总结声学规则，最终用于共振峰合成系统。但是，人们同时也发现该技术有明显的弱点。首先由于它是建立在对声道的模拟上，因此，对于声道模型的不精确势必会影响其合成质量。另外，实际工作表明，共振峰模型虽然描述了语音中最基本最主要的部分，但并不能表征影响语音自然度的其他许多细微的语音成分，从而影响了合成语音的自然度。另外，共振峰合成器控制十分复杂，对于一个好的合成器来说，其控制参数往往达到几十个，实现起来十分困难。基于这些原因，研究者继续寻求和发现其他新的合成技术。人们从波形的直接录制和播放得到启发，提出了基于波形拼接的合成技术，LPC合成技术和PSOLA合成技术是其中的代表。与共振峰合成技术不同，波形拼接合成是基于对录制的合成基元的波形进行拼接，而不是基于对发声过程的模拟。

作为一种有调语言，汉语韵律特征非常复杂。古汉语的平仄以及现代汉语拼音，对于同样一个音节，出现在不同的环境下，其韵律参数都是各不相同的。用有限的存储单元存储基本汉语基本语音单元，进而从有限的存储单元中合成出无限词汇，组成连续汉语语句。必须在一定的韵律规则下对音库单元的韵律参数进行调整，以得到符合当前语言环境的语音库单元。语音合成器用来完成这种功能。中文语音合成系统在DSP下实现时，除清晰度，能懂度和自然度外，还要求合成算法具有较低的运算复杂度，尽量小的语音库以减少对有限存储空间的占用程度。