思必驰 CTO 周伟达：语音技术优先服务于 AIoT | CCF-GAIR 2019

时间：2019-08-20 14:07:07

关键字： IoT 思必驰语音技术

手机看文章

扫描二维码
随时随地手机看文章

[导读]记者按：7 月 12 日-7 月 14 日，2019 第四届全球人工智能与机器人峰会（CCF-GAIR 2019）于深圳正式召开。峰会由中国计算机学会（CCF）主办，记者、香港中文大学（深圳）承办，深

记者按：7 月 12 日-7 月 14 日，2019 第四届全球人工智能与机器人峰会（CCF-GAIR 2019）于深圳正式召开。峰会由中国计算机学会（CCF）主办，记者、香港中文大学（深圳）承办，深圳市人工智能与机器人研究院协办，得到了深圳市政府的大力指导，是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流博览盛会，旨在打造国内人工智能领域极具实力的跨界交流合作平台。

当下，智能语音技术成为下一代人机交互新模式已经得到了业界的认可，智能交互、就近唤醒、全双工成为当下语音技术中前沿技术探讨点。在 CCF-GAIR 2019 “5G + AIoT”专场上，思必驰 CTO 周伟达带来了关于语音交互技术的演讲，演讲主题为《语音交互技术在 IoT 方向的应用与挑战》。

思必驰 CTO 周伟达

演讲中，周伟达指出，智能语音当下面临的挑战主要有三点，即低功耗、远场交互和高噪声、全场景智能交互。

首先，在低功耗方面，周伟达在演讲中提到低功耗算法、低功耗芯片以及软硬一体的方案。演讲结束后，周伟达接受了记者的采访时也强调了低功耗。他认为：“低功耗是语音技术发展的一个方向，它是一个涉及到语音交互的全链条，从前端的信号处理到语音合成，再通过扬声器的播放，每个环节都要实现低功耗。”

另外，关于软硬结合的行业创新点，周伟达在采访中表示，一方面是 AI 计算的加速，涉及到在现有平台上植入算法去加速运算；另一方面是芯片的创新。他说道：“ AI 芯片会打破传统的冯诺依曼的组件构架，然后把数据和指令从外部输入进来，还要有计算完再输入出去的架构。有可能数据和计算是放在一起来做的，所以我们觉得会是一些革命性的技术突破。”

对于远场交互和高噪声的挑战，周伟达在演讲中提出了麦克风阵列、降噪、多模态交互、全双工系统等解决方案。另外，解决智能语音在全场景智能交互的挑战中，周伟达提出了多设备联动机制，通过正面唤醒、就近唤醒、语义选择、多模态直视唤醒等方案，以解决家居场景中的多设备智能唤醒难题。

关于全双工的语音系统，周伟达在采访中做了补充，他说道，思必驰首先希望提升的是人机交互的自然度，主要着力于两个方面，一方面是处理降噪，提升 VAD；另一方面是完整意图判断。不仅如此，全双工技术在未来除了要提升自然度，还要提高智能；其中包括感知智能和认知智能。

除了演讲中提及的三大挑战，语音交互在 IoT 领域的应用中，隐私安全也是一个值得关注的问题。对此，周伟达在采访中表示，隐私保护是最基础的，行业要发展，就必须保护隐私，尊重隐私。

目前，思必驰不仅聚焦语音技术，而且自研 AI 芯片，周伟达接受采访时说道，要把语音技术产业做起来，思必驰要做更多的事情。其实，思必驰最早主要投入于 AI 算法中，为了技术落地以及给客户提供更好的服务，思必驰在不断地提供多个层面的解决方案。

值得注意的是，本次演讲的专场主题为“5G + AIoT”，关于 5G 的进步发展对 IoT 的影响，周伟达在采访中表示：“未来接入 5G 之后，户内设备访问数据的能力会更加流畅，更加快速。”

对于户外设备，例如车载设备、地铁售票机等，周伟达认为，语音交互速度能够得到快速提升。将来，在带有语音交互设备的购票机上，大约会有 70% 的用户会选择语音购票，而不是用按键或者是用触屏。通过 5G 联网之后，未来户外设备会提供越来越多便捷的服务。

以下是周伟达在 CCF-GAIR 大会上的演讲内容，记者对其进行了不改变原意的编辑整理：

思必驰创建于 2007 年，这十几年间一直在 AI，特别是语音交互方面从事技术研发，以及技术和内容的服务。

语音技术在 IoT 领域面临的挑战

一、低功耗。我们要在耳机设备上做语音交互，做 Always on listening，这对功耗的要求非常高，这部分技术后面会做详细的介绍。

二、远场和高噪声。现在我拿着麦克风是近场的麦克风语音采集，在智能家居环境中，不可能总持着一个麦克风，或是带着麦克风跟设备进行语音交互。在智能音箱、智能电视和各种智能家电以及在各种户外场景中，我们希望人可以脱离手持麦克风，可以跟设备进行自然的、智能的语音交互。

那么，在远场的语音交互中，面临的问题有哪些呢？

低的信噪比。在远场的语音交互中，因为与麦克风距离很远，面临的第一个问题就是低的信噪比。

低的信回比。如果本机播放音乐和合成音跟你交互，本机的混响会回到本机设备，因此，面临的第二个问题就是低的信回比。

环境噪音干扰。除了本机发出的声音，我们在音箱上面临着电视的干扰、或是周围很多人群聊天的干扰。在卖场场景中，遇到的最大问题是：封闭的卖场里两排电视上下平着过去，一个房间三面墙都着放着电视，这些电视都是开着给大家做演示，同时有大量的购买者参观，主讲人、促销人如何在这样的场景里演示，包括给大家展示语音交互的体验？这样的场景里挑战非常大，外界的干扰是对目标人声有很大的干扰。因此，第三个问题就是非常低的信号和干扰的功率比。

远场交互。无论在今天这样的环境还是家居环境，甚至是开放环境，混响时间 60dB 非常长。在空旷的场景里，要把后面的混响消除掉，得到人跟人交互清晰的语音，这样的挑战也是非常大的。

三、全场景的智能交互。IoT 应用的设备五花八门，我们目前在 IoT 领域涉及的设备场景有 100 多个，搭载思必驰语音技术的产品众多。那么，面临的问题是什么？语音技术现在还不能做到非常通用的语音识别，很多语音识别跟背后的语音模型带来的领域知识需要定制。

通常情况下，日常的交流是没问题的，现在的机器对这种问题很容易解决。但是当我们面临一些特殊的专业名词，面临一些外来语，中文加上英文时，对于这样的语言模型，机器需要定制、需要输入热词。

那么，如何方便开发者、客户进行人机语音交互的技能定制，这是我们面临从实验室单个设备、单个产品技术的优化走向市场化、规模化的巨大挑战。

如何做到低功耗？

现在行业内的解决方法基本上是“算法+硬件”。一个芯片的功耗取决于芯片的供应、芯片的面积、芯片的主屏，我们要严格的筛选这几个部分。当然，在行业内有不少专业的公司专注做低功耗的芯片。

如何在硬件上做到多分级和复用？其实，在很多场景下，人和机器大多数时间是没交互的，那么，我们能不能在安静的场景下降频处理、降级处理呢？

在语音出现的场景中，我们用 VAD 检测以后语音开始采样、开始做之后的语音监听。当人们去唤醒它，有目的性、有目标的与机器设备交互的时候，我们能够监测到人的意图：他是跟机器交互，而不是跟其他人、其他场景聊天。在这种情况下，要做到低功耗需要分级处理、降频处理。

低功耗的处理需要从算法上解决目前硬件解决不了的问题。我们需要有模拟的 VAD。以前大部分的 VAD 是麦克风采样完以后会用 VAD 的算法检测语音，这一块我们能检测的是：是否有声音启动系统？

还有，设备为了响应人的交互需求，在白天晚上都是在监控。在极安静的情况下，设备是 Sleep 状态，在晚上安静的场景下，设备也应该和人一样休息。在这一部分，我们应用了硬件模拟 VAD，是从麦克风信号下来以后，监测周围声音场景能量的强弱。

其次是数字硬件的 VAD，我们要解决的问题是，在有声音的环境中，这个声音有可能是噪声、有可能是人声或是其他设备的声音，需要用数字信号经过算法处理检测是不是人声。如果这个时候检测出人声，说明麦克风已经观察到人声。如果不做缓存处理，后面做语音唤醒、声纹识别的时候，数据已经丢失掉了。所以，在采样的时候一定要做 buffer，要做缓存，把人的语音完整保留下来。

之后，我们要结合一级信号处理和一级唤醒，这是做初始目标的识别。检测人的时候，旁边会有很多的干扰声音，要做到低功耗，首先要做第一级简单处理，再做二级高精度处理，然后是人的声纹判断和监测，再做本地识别。在这整个过程中，本来是复杂的算法一次搞定。但是为了满足低功耗的要求，我们逐级提升计算性能，逐级把极少的场景启用高功耗，大部分场景保持低功耗。

在 IoT 领域，低功耗问题的解决需要“硬件+算法”。其实，我们是从算法的需求定义芯片，这一部分深聪智能 CTO 朱总（记者(公众号：记者)注：深聪智能 CTO 朱澄宇，深聪智能是思必驰与中芯国际下属投资公司中芯聚源成立的合资公司）将在 AI 芯片专场会进行详细介绍，关于芯片上如何做到低功耗的语音检测、语音唤醒、语音信号处理。

远场、高噪声难题如何解决？

随着智能音箱以及智能电视等各种智能设备的推出，对于远场信号处理，行业内普遍采用麦克风阵列技术。思必驰的麦克风阵列主要有环形六麦，环形四麦、线性四麦、双麦阵列，在思必驰实验室里，最多的麦克风阵列是三十二麦，即使置于大型会议室里，都能够针对每个人做精细地监测。

另外，在开放的环境中，我们已经实现了分布式的麦克风阵列。针对设备的麦克风阵列，环形四麦、环形六麦相对来说是短间距的。但分布式麦克风阵列不会受空间的约束，不会受麦克风震源间距的约束，它是开放形态，而且可以在空间里随便布置麦克风。

关于降噪，户外穿戴式的场景中面临的主要问题是降风噪。我们和许多快递公司、物流合作，将语音唤醒、语音声纹识别做到耳机里。快递小哥在外快速骑行时，无论是下单、送单都需要进行通话，风会直接吹着麦克风，遇到的典型问题是风噪。那么，如何解决风噪的问题？思必驰从硬件、软件、结构几方面，很好地对风噪进行抑制。

当算法解决不了的时候，在耳机上，不光通过空气传播采集语音，而且通过振动或是触感。大家知道，除了空气麦克风、骨传感麦克风，现在还有肌肤接触麦克风，通过振动采集人的语音。如何把接触传播和空气传播两种不同性质采集单元结合在一起做降噪处理和融合呢？目前，思必驰正在尝试这样的技术。

人和人的交互，我们的第一反应是直视，可能是直达声、就近反应。有一个场景大家可以体会到，如果单独靠语音监听，我们打电话的过程中的交互往往比面对面的交互不自然，原因是什么？

人们在仅凭听觉时，经常会在电话里抢话或是互相等话，我说完等着你反应，而且我不知道你什么时候能反应。在这样的场景中，真正的智能交互是多模态的交互，除了语音之外，要配合其他的传感器，特别是视觉。

在智能交互中，虽然大部分机器的语音识别做得越来越好，支持的技能越来越多，但是人与机器的交互，和人与人的交互之间还有差距，具体有哪些方面呢？

首先是自然度。现在人和机器的交互，特别是成年人和机器交互时，大家怀疑机器的技能。人和设备交互的时候是命令式的，希望话说完机器就能快速响应，人是非常强势的。但是，现在已经出现了一些人们把机器当成人看的场景。说几个典型的场景：在儿童教育中，儿童会把平常不敢跟父母说的话说给机器听，与机器聊天、谈心，这是因为对话技术做得越来越自然。

人机对话技术遇到的问题是交互的自然度，这个自然度包含哪些方面？首先，人和机器交互的时候，机器该停不停，它不能预测这句话人的意图是否表达完整，依然在监听，有噪声就不会停。第二个是不该停的时候反而停了，人们在说话期间停顿了一下，机器却认为人们说话结束了，作出相应，表达我不理解你的意思。

针对这些场景，单点的技术是容易解决的，人声的检测、VAD的检测以及语音识别判断句子的完整性、意图的完整性。最大的难度是整个的系统架构，从前端采集的信号处理到意图判断，如果判断延迟过高，机器响应是跟不上人的节奏的。

在智能响应方面，我们已经接近于人类交互的节奏，很好理解对方的意图，可以接话、可以响应。现在思必驰系统的集成更多会把语音信号的处理、识别往本地移，加速这个过程，有些场景已经实现了人跟机器的自然交互。

以上是我提到的自然交互的两个方面，另外还有人打断机器对话，以及机器能自然的接话。人听完一段机器语音，播出的时候已经理解了，有些时候人会非常强势地说：“你赶紧给我闭嘴，我要说下一个意图。”这个时候人经常会打断机器。

还有一种场景，在 Google 去年的 Duplex 发布会中，全世界人鼓掌声最响的时候是机器打电话给餐馆预定位置、预定时间，中间有一个细节，对方餐馆服务人员说：“你要预定几人的位置？”，后面没说完“你是几点到？”，这两句话的中间有短暂的停顿，这个时候机器以“嗯哼”进行了响应。就是这个“嗯哼”，全世界的耳朵都亮了。这是什么原因呢？

在人的意图没有表达完整的时候，机器要这么短的时间内要响应，将“嗯哼”在 300 毫秒内决策完响应出去，对整个系统的架构挑战非常大。今后，我们也希望人机交互能够做到更智能：智能地打断、智能地纠正、抗干扰。

全场景的语音交互：多设备联动+DUI 平台

随着单台智能设备在家庭里普及，很多家庭已经出现的多台智能设备。当出现两台智能设备的时候，如果还用语音唤醒去交互，是反人类的产品设计。那为什么要用反人类的产品在这样的产品里用呢？难点是，我们做语音交互设备的时候，如果设备一直在监听不用唤醒，设备经常会误判。虽然识别没问题，但是会误导设备与人交互，做误判以后会导致人的体验很差。

在这儿，我们需要解决多设备交互、多设备联动。比如说，在家居里有多个设备，能不能实现正面唤醒？能不能实现就近唤醒？或是就近交互？

另外，语义选择就是通过设备监听人说话，判断当前人是不是跟设备说话，是否跟机器覆盖的规模、意图相吻合。

最后，多模态视觉交互就是通过视觉设备、红外设备，感受到人对机器有表情的交流、眨眼的交流。用多模态判断出人是与机器交流，机器才会做出相应。

面对多场景应用，在思必驰 DUI 平台上，用户可以实现语义、对话、内容、技能的定制。人机语音交互要经历多个环节，即识别、语义理解、对话管理、语音合成、内容服务，这些工作都是在后台进行。真正要开发一个好的技能，涉及到每个模块的优化。

思必驰刚开始服务于 IoT，配合客户做第一个场景设备花了一年半的时间。对于这样的技术，实验室可以做到，个人做 Demo 也可以做到，但是真正要做到产业化、市场化的时候，思必驰面临的最大问题是：能不能做成客户可快速开发和定制？

思必驰做的 DUI 平台，如果客户优选我们的标准功能加简单定制，7 分钟可以完成；如果是客户全定制，一天可以完成一个技能。

人机语音交互最主要的目的是实现信息资源、内容的获取，去实现定票、听音乐、看电视功能的操作，这是最直接的刚需需求。要实现这些操作，后台需要非常丰富的内容资源。关于这些内容资源，思必驰无论在互联网，或者是移动互联网，在行业内有很多的内容提供商。

这在人机语音交互、AIoT 里有什么特殊的呢？以前，我们无论是通过手机，还是 PC 听音乐，都可以浏览喜欢的歌手、喜欢的歌曲，还可以中间听一半或者快速切歌。想象一个音箱设备，没有屏幕，只有语音交互，那么，要如何快速获取你想要的内容呢？

现在最全的音乐库大约有三千两百多万首歌，一个人经常听的音乐最多 1000 首，那么，如何在三千两百多万首歌中获取你经常听的 1000 首歌曲，让你在闲暇时光，或者比较累的时候听的歌就是你想要的音乐，想看的电视就是你没有看过又是你喜欢的、同一品类的高质量大片呢？这是智能设备上高质量的内容源服务，不仅是内容源摆在那儿自己选，而且是给你推荐符合你喜好的，很广泛的内容、最关注的内容。

在 AIoT 中，除了单个设备需要智能以外，我们还需要打通全屋智能。思必驰的 DUI 平台上，我们已经为开发者打通智能家居各种互联协议，目前已经打通 20 多个协议，可以和其他的智能设备平台实现互联，互相调用信息，互相共享信息。

针对多场景的应用，我们希望为开发者提供最便捷的通用方案选择。目前思必驰在 IoT 方向为开发者提供标准、全面的解决方案有几大类：

家居语音解决方案。为各种智能家居设备，例如为冰箱、空调、洗衣机、控制面板、电脑、小家电、厨电、卫生间电器提供了解决方案。

我们为各种智能手机、智能手环、智能手表、智能平板提供了低功耗的户外场景语音解决方案。

我们为儿童类故事机、机器、手表、学习平板、编程机器人提供完整的解决方案。

我们为各种企业会议系统、提高办公效率的远场语音采集、信号处理、语音增强、通话音质改善，包括发布会现场的语音采集抗混响、抗啸叫，语音实时转写、语音会议摘要提取，实时翻译等提供方案。

思必驰全部的语音技术优先服务于 AIoT，我们坚信好的语音技术一定能服务到每一位普通的观众、普通的用户，只有让每一位用户真正体验到自然度、体验到交互的方便性、信息获取的便捷度，每一位用户才会真正接受语音交互技术在设备中的应用。

我们将会在本次峰会后，在「AI投研邦」上线CCF GAIR 2019 峰会完整视频与各大主题专场白皮书，包括机器人前沿专场、智能交通专场、智慧城市专场、AI芯片专场、AI金融专场、AI医疗专场、智慧教育专场等。「AI投研邦」会员们可免费观看全年峰会视频与研报内容，扫码进入会员页面了解更多。峰会期间专享立减399元福利，可进入页面直接领取，或私信助教小慕（微信：moocmm）咨询。（最后一天50个名额，速抢。）