不认字也没事儿，谷歌AI直接用音频翻音频

时间：2019-04-16 16:30:51

关键字： AI 谷歌谷歌翻译

手机看文章

扫描二维码
随时随地手机看文章

[导读]而AI在翻译语音的时候，不把西语的音频转成文本，也不生成任何英语的文本，直接产出了英文音频。和标答一字不差。

在我们的世界里，谷歌翻译是这样的：

一直被调戏的翻译娘

在谷歌的世界里，谷歌翻译是这样的：

西语英语：你不问，就不会知道了

请注意，视频里的文字只是为了便于观赏，才存在的。

而AI在翻译语音的时候，不把西语的音频转成文本，也不生成任何英语的文本，直接产出了英文音频。和标答一字不差。

这是谷歌团队的最新成果，想法大胆而有效。

仿佛在双语环境里出生的小朋友，还没识字，就能把爸爸说的话翻译给妈妈。

怎么会不用看文本?

这个翻译模型，名字叫做S2ST(全称Speech-to-Speech Translation) 。

不看文本只靠听，背后的原理是把一种语音的声谱图(Spectrogram) ，映射到另一种语音的声谱图上。

那么，声谱图什么样?

下图就是 (西语) “你好么，嘿，我是威廉，你怎么样啊?”的声谱图。

横轴是时间，纵轴是Mel频率

然后是目标，英文的声谱图。

AI只要从大量的成对数据里，学懂英文和西语的声谱映射关系，就算不识别人类说的是什么字，依然能当上翻译员。

当然，一个完整的翻译模型，并没有上面说的这么简单，它由三个部分组成：

一是基于注意力的序列到序列 (seq2seq) 神经网络。就是下图的蓝色部分，它负责生成目标声谱图，这只是第一步，还不是音频;

二是一个声码器(Vocoder) 。下图的红色部分，它会把声谱图转换成时域波形 (Time-Domain Waveforms) ，这已经是带有时间顺序的正经声波了;

三是个可选的附加功能，原本说话人的编码器。绿色部分，经过它的加工，翻译出的英文，和原本的西语，听上去就像同一个人发出来的。

当然，蓝色部分还是主角。

里面的编码器 (左) ，是8层双向LSTM堆起来的;而解码器 (Spectrogram Decoder) ，团队说要选4-6层LSTM的，深一点效果比较好。

成功了

模型是用人类自发的对话 (比如打电话的语音) 端到端训练出来的，一起来看看成果吧。

第一题，短语。“克兰菲尔德大学的新员工”，翻译和标答一字不差。

原文：nuevos empleados de Cranfield University

标答：New hires at Cranfield University

第二题，句子。“看看这个国家上下，你看到了什么”，依然和标答一致。

原文：Por lo tanto, mirar alrededor del país y lo que ves.

标答：So, look around the country and whatdoyou see?

对手表现怎样?借助转换文本来翻译的AI，缺了个“do”字：

第三题，带从句的句子。“我的表 (堂) 兄弟姐妹们小的时候，我照顾过他们也教过他们，有过一些这样的经历。”

原文：Tengo cierta experiencia en cuidar y ense?ar a mis primos cuando eran jóvenes.

标答：I’ve got some experience in looking after and teaching my cousins when they were young.

照顾(TakingCare of) 有缺失，其他部分对比标答是完整的。

再看对手，“照顾 (Care) ”和“教 (Teach) ”都用了动词原形，语法不是很严格：

肉眼看过之后，再让S2ST和先转换文本再翻译的AI对比一下BLEU分。

在“Conversational”大数据集上，S2ST的BLEU分比对手差了6分：42.7比48.7。

的确还有一些差距，但毕竟对手依靠了文本，算是开卷考了。

这样说来，直接跳过文本的想法，虽然听起来有些飘，但结果证明是可行的。

所以，谷歌团队说，大有可为啊。

不认字也没事儿，谷歌AI直接用音频翻音频

阿维塔、赛力斯已入股！华为引望可能成“中国博世”

Trianz与AWS达成战略合作协议，彻底改变云采用和管理方式

人工智能驱动工具SODA V将颠覆汽车市场，使汽车开发时间和成本降低90%

从容应对未知风险----解密亚马逊云科技的韧性之道

中国游戏市场开始复苏！腾讯、网易等巨头缩减在日本投资

独立自主！华为董事：致力打造不依赖西方的技术

华为张平安：数字世界话语权最终由生态繁荣决定！

中国通信服务公布2024年中期业绩

NVI技术创新联盟成立！自主生态将带动产业链高速发展

软通动力与长三角投资达成战略合作共谋数字生态新发展

海南区6家凯悦系酒店与岚图达成战略合作，共同推动新能源出行体验

安岚携手妮可•巴菲特开启疗愈之旅在秋日红叶的浪漫中疗愈身心

不惧美国封锁！华为：我们给大家提供系统、存储等

尼尔森IQ深耕中国四十载，共绘未来新篇章

第二十二届跨盈年度B2B营销高管峰会2025聚焦"营销竞取，打破市场内卷实现认知进化"

恒久动力驰骋天地美孚1号携手周冠宇邀您纵擎驰骋，劲享驾趣体验

美通社母公司Cision发布CisionOne平台，进军亚太地区媒体监测市场

移远通信推出大模型解决方案，重塑千行百业智能边界

高途公布2024年第二季度未经审计业绩

华为发布AI百校计划：培养AI人才每年获最高100万支持