谷歌用AI合成语音:真人难以辨别瑕疵
扫描二维码
随时随地手机看文章
12月29日消息,谷歌本月推出了一款名为“Tacotron 2”的全新文字转语音系统,它具有惊人的发音准确性,且实际文本阅读效果几乎同真人声音无法区分。
谷歌用AI合成语音(图片来自baidu)
“Tacotron 2”其实已经是谷歌的第二代类似技术,它由两个深度神经网络组成。目前,该系统只进行了英语女声的训练(如要需要它发出男性声音的话,谷歌则需要对其进行重新“培训”)。
谷歌的研究人员表示,“Tacotron 2”完全可以准确发音一些非常复杂的单词和人名,并根据标点符号的不同而有所区分,甚至能够完美地讲完一段绕口令。举例来说,“Tacotron2”会默认在读到大写单词的时候加重语气,也能够处理少量的人为打字错误。
“Tacotron 2”上所谓“语音合成技术”又称文本转语音(TTS)是如今很多移动产品和应用上不可或缺的技术模块,例如语音交互应用、导航、语音控制以及为视力障碍者设计的产品中都需要语音合成技术的支持。在此之前很长一段时间内,语音合成技术都是采用拼接方式,需要记录大量语料才能进行语音合成。这样的方法不仅前期需要处理大量数据,而且一旦说话人有所改变就需要重新记录和处理,所以业界一直在寻找可以实时生成语音的方式。