谷歌拟使用机器学习技术改善Duo通话服务的音质
扫描二维码
随时随地手机看文章
外媒报道称,为保障 Duo 通话服务在不稳定连接状态下的音频质量,谷歌推出了一项名叫 WaveNetEQ 的音质改善方案。据悉,其基于谷歌 DeepMind 部门的相关技术,旨在利用人工加入的噪音来抑制音频的抖动。这种噪音听起来就像人类在说话,但其实是通过机器学习技术产生的。
如果你曾经拨打过网络电话,那肯定多多少少地经历过因连接不稳定而导致的音频抖动。
当通话期间的部分音频数据包在通信过程中丢失、延迟过高、或顺序错误时,就有可能发生这样的情况。
谷歌表示,99% 的 Duo 通话都会出现数据包丢失,其中 20% 的丢失率超过 3%、另有 10% 的丢失率超过 8% 。
每款通信应用都有采取某种方式来处理丢包问题,但谷歌表示,传统的丢包掩饰(PLC)过程,或导致高达 60ms 的空缺。
相比之下,基于 DeepMind 神经网络技术的 WaveNetEQ 解决方案,已经在 48 种不同语言的 100 多个扬声器数据上展开了训练。
为增加说服力,谷歌还放出了一些 WaveNetEQ 与常见的 PLC 技术的比较音频。当然,新技术能够转换多少音频,还是有一定的局限的。
谷歌表示,WaveNetEQ 旨在替换较短的音频间隔,而不是真人通话期间漏掉的整个单次。因此在 120ms 之后,这套系统会淡出并产生静音。
通过评估,谷歌确保了 WaveNetEQ 不会引入任何新运算的重音,此外所有处理都能够在用户的设备端进行,毕竟 Google Duo 默认就开启了端到端加密。
一旦网络连接变得顺畅,真人的音频会立即恢复,WaveNetEQ 将无缝地淡出介入。目前该技术已在 Pixel 4 智能机上进行测试,后续该公司还将向更多设备推广。