当前位置:首页 > 智能硬件 > 智能硬件
[导读]而AI在翻译语音的时候,不把西语的音频转成文本,也不生成任何英语的文本,直接产出了英文音频。和标答一字不差。

在我们的世界里,谷歌翻译是这样的:

一直被调戏的翻译娘

在谷歌的世界里,谷歌翻译是这样的:

西语英语:你不问,就不会知道了

请注意,视频里的文字只是为了便于观赏,才存在的。

而AI在翻译语音的时候,不把西语的音频转成文本,也不生成任何英语的文本,直接产出了英文音频。和标答一字不差。

这是谷歌团队的最新成果,想法大胆而有效。

 

 

仿佛在双语环境里出生的小朋友,还没识字,就能把爸爸说的话翻译给妈妈。

怎么会不用看文本?

这个翻译模型,名字叫做S2ST(全称Speech-to-Speech Translation) 。

不看文本只靠听,背后的原理是把一种语音的声谱图(Spectrogram) ,映射到另一种语音的声谱图上。

那么,声谱图什么样?

下图就是 (西语) “你好么,嘿,我是威廉,你怎么样啊?”的声谱图。

横轴是时间,纵轴是Mel频率

然后是目标,英文的声谱图。

AI只要从大量的成对数据里,学懂英文和西语的声谱映射关系,就算不识别人类说的是什么字,依然能当上翻译员。

当然,一个完整的翻译模型,并没有上面说的这么简单,它由三个部分组成:

一是基于注意力的序列到序列 (seq2seq) 神经网络。就是下图的蓝色部分,它负责生成目标声谱图,这只是第一步,还不是音频;

二是一个声码器(Vocoder) 。下图的红色部分,它会把声谱图转换成时域波形 (Time-Domain Waveforms) ,这已经是带有时间顺序的正经声波了;

三是个可选的附加功能,原本说话人的编码器。绿色部分,经过它的加工,翻译出的英文,和原本的西语,听上去就像同一个人发出来的。

 

 

当然,蓝色部分还是主角。

里面的编码器 (左) ,是8层双向LSTM堆起来的;而解码器 (Spectrogram Decoder) ,团队说要选4-6层LSTM的,深一点效果比较好。

成功了

模型是用人类自发的对话 (比如打电话的语音) 端到端训练出来的,一起来看看成果吧。

第一题,短语。“克兰菲尔德大学的新员工”,翻译和标答一字不差。

原文:nuevos empleados de Cranfield University

标答:New hires at Cranfield University

第二题,句子。“看看这个国家上下,你看到了什么”,依然和标答一致。

原文:Por lo tanto, mirar alrededor del país y lo que ves.

标答:So, look around the country and whatdoyou see?

对手表现怎样?借助转换文本来翻译的AI,缺了个“do”字:

 

 

第三题,带从句的句子。“我的表 (堂) 兄弟姐妹们小的时候,我照顾过他们也教过他们,有过一些这样的经历。”

原文:Tengo cierta experiencia en cuidar y ense?ar a mis primos cuando eran jóvenes.

标答:I’ve got some experience in looking after and teaching my cousins when they were young.

照顾(TakingCare of) 有缺失,其他部分对比标答是完整的。

再看对手,“照顾 (Care) ”和“教 (Teach) ”都用了动词原形,语法不是很严格:

 

 

肉眼看过之后,再让S2ST和先转换文本再翻译的AI对比一下BLEU分。

在“Conversational”大数据集上,S2ST的BLEU分比对手差了6分:42.7比48.7。

 

 

的确还有一些差距,但毕竟对手依靠了文本,算是开卷考了。

这样说来,直接跳过文本的想法,虽然听起来有些飘,但结果证明是可行的。

所以,谷歌团队说,大有可为啊。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭
关闭