当AI也能像特工一样无声之中辩人言会发生什么有趣的事呢

时间：2020-06-12 17:12:01

关键字： AI 微软

手机看文章

扫描二维码
随时随地手机看文章

[导读] 小时候看特务电影时，特工们往往有一项必备的技能，就是隔着几百米远盯着正在说话的对象，从嘴型判断出对方在说什么。有了这种记忆，导致如今看什么语音识别技术都觉得相当一般——我都说出声儿了你才听懂，算

小时候看特务电影时，特工们往往有一项必备的技能，就是隔着几百米远盯着正在说话的对象，从嘴型判断出对方在说什么。有了这种记忆，导致如今看什么语音识别技术都觉得相当一般——我都说出声儿了你才听懂，算什么AI好汉。

不过最近一项专利申请表明，微软正在向特工学习，推出了无声语音识别技术。当AI也能像特工一样，无声之中辩人言，我们的世界究竟会有什么不同？

除去唇语识别，AI还有什么方式悄悄听懂你的话？

说起无声语音识别，可能很多人第一反应就是复制人类的方式，利用图像识别进行辩读唇语。而利用唇语进行语音识别这种方式也由来已久，但是识别的准确率一直不算高。DeepMind曾在2016年做过测试，经过1万小时的新闻视频训练，AI唇语准确率达到了46．8％。国内有一家企业曾经提供过相关数据：在对中文新闻视频的识别中，准确率达到了70％。而搜狗所推出的驾驶场景下的唇语识别，因为涉及到的词汇量很少，准确率能够达到90％。

可以发现，相比现在主流语音识别动辄95％、97％的准确率，唇语识别准确程度实在是有些拿不上台面。对于中文这种一字一音节的语言来说还好，对于英文这种连音很多的语言来说，唇语识别要跨越的门槛确实不小。

另一方面来看，唇语识别所涉及到伦理问题实在过于严重。唇语识别的“射程”太远，如果这种技术真的发展成熟，意味着天网之下的我们在交谈时将再无隐私。在隐私焦虑越来越浓的今天，哪家企业公开研究这项技术，只怕是觉得自己家的公关部门过得太清闲。

因此包括微软在内的产业和学界，都在寻找一种更精准也更隐私的无声语言识别。目前看来，无声语音识别的技术方向可以被分为两个“派系”，一是“气宗”，另一个是“电宗”。

微软所提交的专利，就是典型的“气宗”——在终端上添加传感器，通过感知用户说话时的气流来判断用户说话的内容。这种终端如同一只小型麦克风，置于用户嘴边，用户在说话时形成的气流会在设备中形成反射，经过训练，可以将这些气流反射的信号和文字一一对应。

而“电宗”则更加神奇，我们知道人在说话时需要调动整个下半张脸的肌肉，不同的文字发音所调动肌肉的方式也并不相同。通过对面部EMG（肌电）信号的采集，来学习人类说话时面部EMG信号特征，并通过神经网络的训练将EMG信号和文字对应起来。

可以看出这两种无声语音识别都有一个共同的特点，那就是自主性和私密性。不管是EMG信号采集还是气流采集，都需要在讲话者身上佩戴好设备，而不是像图像技术一样，能够在远程且讲话者不知情的情况下进行采集分析。

无声语音识别变成真·气功？

不论是气宗还是电宗，这些无声语音识别技术都面临着同样的问题——既然要用户把话说出来才能进行识别，那为什么不直接应用语音识别来进行文字转换和翻译，非要弄一些和“气功”一样没有切实应用场景的花招？

其实无声语音识别的应用，可能不像大家想象的那样广泛，它既不能以最高效的方式帮助听障人士，也不允许被应用于监听等等工作。但在一些关键场合下，无声语音识别却可以发挥出奇用。

我们可以一起开动脑筋，想想在哪里人们需要说话，但却听不到彼此的声音。答案很简单，要么是在声音无法传播的地方，要么是在一些特别嘈杂的地方。于是无声语音识别就有了如下的应用场景：灾害现场、舱外探索、水下作业……

在这类场所中，人们或许为了躲避被污染的空气、或许为了呼吸氧气，都会穿上类似生化服、宇航员服等等特殊服装。穿上之后既看不到对方的表情，也听不到对方的声音，更没办法用语音交互去控制其他设备了。同时环境情况（例如氧气不够充足）往往不允许人们以正常的声音说话，加上防护服的封闭状况会引起声音的回响，以往的有声语音识别在这种情况下很难发挥作用。

这时可以被安置在防护服内部的无声语音识别就显得很有价值，讲话者只需要做出口型就能向外界传递信息。

除此之外还有嘈杂的马路、工厂车间、机场……

在这些场所中，想要让对方听清自己的声音，往往需要扯着嗓子吼。想让语音识别准确拾音，更是难上加难。这时利用无声语音识别就会轻松很多，不仅可以准确表达信息，也能让一些处于这种场合的工作人员戴上隔音耳塞保护自己的听力。

实际上目前在欧洲一些型号的战斗机中，就因为机舱内噪音巨大、飞行员之间无法沟通，已经应用上了EMG信号无声语音识别技术。

当然，目前相比语音识别技术、甚至相比唇语语音识别，无声语音识别技术的发展阶段还很初级，应用效率也不高。

实际上无声语音识别是一项典型的“美好而无用”的AI技术，它既完美体现了一系列技术的排列组合，例如EMG信号无声语音识别所体现出的AI与神经学的结合；又在应用上极大程度的受限，即使在一些声音难以传播的场景下，也要考虑计算条件、识别语音后信息再传递的媒介，更不用提复杂的数据收集工作了。

但我们有理由相信，在未来AI技术越来越普及化、应用成本越来越低时，总会出现一些极端场景应用上这些看似无用的技术——也许未来有一天，战斗机的控制也要应用上语音交互呢？