谷歌人工智能小组DeepMind研发“读唇”软件毫不逊色于人类

时间：2020-08-19 15:48:02

关键字： AI 人工智能谷歌

手机看文章

扫描二维码
随时随地手机看文章

[导读] 　　谷歌(微博)人工智能部门DeepMind正与牛津大学研究人员合作，希望开发出全球最先进的“读唇”软件，可能比人类的“读唇”能力还要出色。

　　谷歌(微博)人工智能部门DeepMind正与牛津大学研究人员合作，希望开发出全球最先进的“读唇”软件，可能比人类的“读唇”能力还要出色。

　　为实现这一目标，研究人员选取了数千个小时的BBC电视短片，上传到一个神经网络上，对其“读唇”软件进行训练，即根据主播嘴部运动来识别其播报内容。

　　结果，这款“读唇”软件的唇读准确率高达46.8%。相比之下，基于同样的测试内容，人类唇读的准确率只有12.4%。

　　这项研究基于牛津大学之前的一款人工智能“读唇”系统“LipNet”。LipNet能将视频中人物的嘴部运动与其台词进行匹配，准确率高达93.4%。当然，该准确率主要基于一些相对简单的句子。

　　DeepMind这款“读唇”软件名为“看、听、分析与拼写”(Watch, Listen, Attend, and Spell)，与LipNet不同的是，DeepMind的软件致力于更难的长句。

　　为此，谷歌神经网络观看了来自BBC的约5000个小时的流行电视节目，包括《晚间新闻》和《提问时间》和《今日世界》等，共包含了11万个不同的句子，1.75万个不同的单词。相比之下，测试LipNet的句子只包含了51个不同的单词。

　　谷歌对此表示：“这项研究的目的是识别人们谈话时的短语和句子，有声音或没有声音都能识别。与之前的相关研究不同，它们仅限于有限数量的单词或短语，而我们的研究针对无限制的自然语言长句。”

　　DeepMind团队认为，他们新开发的这款软件除了能帮助听力损伤人群，还支持其他一系列应用，包括注释电影、利用唇部动作与Siri和Alexa等数字助理通信等。

阿维塔、赛力斯已入股！华为引望可能成“中国博世”