手势交互进入主流是由于什么
扫描二维码
随时随地手机看文章
上周,谷歌在其Made by Google发布会上一口气发布了数款新硬件,包括最新的Pixel 4手机,Pixel Bud 2智能耳机,Nest Mini智能音箱等。这些新硬件除了形态上与传统硬件的不同之外,在用户交互上也有创新之处,而这些新的用户交互特性也让相关芯片进入我们的视野。
新硬件形态需要新的交互方式
上周谷歌的硬件发布会是近来一系列互联网公司硬件发布会的延续。在谷歌之前,亚马逊和微软也发布了其新硬件。
如果我们仔细分析这些互联网公司发布的硬件,我们首先看到的是互联网公司希望从传统智能硬件格局中突围的决心。这些互联网公司发布的新硬件更注重智能化,往往会使用一些非传统的硬件形态(例如亚马逊的智能眼镜)配合人工智能来实现让用户耳目一新的效果。互联网公司做硬件的最终目标还是希望用户能通过硬件作为入口来使用自己的互联网服务,因此即使每个硬件的出货量都不大,但是只要能带来一定的流量就算成功。因此,我们会看到亚马逊和谷歌都采用了类似散弹枪的打法,即一次发布许多款不同的硬件,而并非集中所有资源去开发一两款重点硬件。
如前所述,这类互联网公司开发的新硬件拥有全新的形态,而其最终目的是希望和用户做交互并且把用户接入到互联网公司的服务中去。那么,如何在这些新的硬件形态上搭配新的用户交互界面就变得非常重要。目前主流的触摸屏交互方案已经无法满足新形态智能硬件的需求,因此探索下一代用户接口以及相关的硬件芯片就势在必行。
终端语音交互
在新的用户接口中,目前最广为接受的是语音交互。语音交互正式进入大规模消费应用始于苹果推出Siri,之后亚马逊的Echo系列智能音箱的发布则真正点燃了整个消费语音交互市场。谷歌也不甘落后,在推出Google Home系列智能音箱之后,这次发布会上发布的Pixel 4手机、Pixel Bud 2智能耳塞和Nest Mini都拥有最新的语音交互接口,同时拥有相关的机器学习芯片支持。
那么,谷歌最新发布的硬件中的语音交互与之前的语音接口有什么不同呢?我们认为,其最大的不同就是强调终端计算,将语音交互的计算尽可能都放在终端完成,而无需传输到云端。从功能上来说,使用终端计算的语音交互接口可以满足在无网络连接的时候也能完成基本的交互,从而大大拓宽了实用的场景。
从性能上来说,网络传输会引入很大的能量消耗和延迟,因此如果能在本地做大部分语音交互运算,则可以大大延长智能设备的电池使用时间并在更短时间内就完成用户需求响应以提升用户体验。最后,从合规角度来看,目前对于互联网公司对于用户数据的监管越来越多,因此把语音交互运算在本地完成而非上传到云端就可以尽可能避免侵犯用户隐私的嫌疑。
从计算复杂度来说,本地语音交互接口可以分成两类,一类是低复杂度计算(例如关键词识别),这类计算的复杂度不高,但是需要能消耗尽可能低的能量,且延迟需要尽可能小。另一类计算复杂度较高(例如实时语音转录成文字以及Assistant类需要对用户的语音输入做一定语义理解的任务)。
在这次发布会中,Pixel Bud 2的语音交互接口就属于前一种。Pixel Bud 2语音交互的主要特性是可以根据用户的指令去完成发送短信、阅读短信、播放音乐等功能。根据谷歌的说法,Pixel Bud 2内部包含了一块专用的机器学习芯片以完成这类语音接口。
仔细分析Pixel Bud 2这些智能助手的实现方式后我们认为Pixel Bud 2的语音助手主要作用是识别用户的语音指令,并且通过蓝牙连接的手机来完成相关指令的需求。
例如,如果用户通过语音给出“阅读短信”的指令,则智能耳机里的语音助手首先需要识别出用户是在下语音指令,其次需要识别出语音指令的大致内容(“阅读短信”)并且将指令发送给手机,之后手机端的TTS算法把短信转换成声音再通过蓝牙传送给耳机并播放。在这样一个过程中,耳机端的语音接口关键词识别算法需要完成较传统单一关键词唤醒更复杂的功能。
除了Pixel Bud 2之外,谷歌在Nest Mini和Pixel 4上也使用了离线语音模型来支持语音接口。按照谷歌官方的说法,在Nest Mini上的专用机器学习加速芯片可以让Google Assistant更快完成相应,而在Pixel 4手机上的离线语音模型则可以完成更复杂的语音交互,例如离线语音转录成文字,复杂的多轮语音指令等等(例如可以让assistant去查找一张图片,并且把它发送给某个联系人)。
从技术上来说,第一类低复杂度的语音关键词识别算法目前通常会使用卷积神经网络来实现。相较于使用在计算机视觉应用中的卷积神经网络,语音接口中的卷积神经网络对于性能的需求较低,然而由于应用场景对于硬件的限制(例如耳机中的芯片不太可能搭配DRAM),如何在硬件成本最低、功耗最小的条件下完成高精准度的关键词识别仍然具有挑战性。
例如,为了最小化功耗,会需要芯片中的相关模组工作在非常低的电源电压下,甚至比Fab提供的最低电压还要低,这就给低功耗设计流程带来了挑战。此外,由于这类应用中无法搭载DRAM,因此对于神经网络模型带来了不少挑战,如何在模型尺寸和精确度之间达成一个较好的平衡需要很多工作。
总体而言,这类设计需要做软硬件结合设计以保证合理的精确度和尽可能低的功耗。根据现有的消息,我们估计Pixel Bud 2中使用的机器学习专用芯片很可能是在传统TWS无线耳机芯片上再集成了一块DSP或者谷歌自己的IP来完成这样的低功耗计算。由于对于成本和硬件尺寸的限制,我们认为未来针对该方向的超低功耗语音关键词交互芯片方案最有可能是以IP的形式存在,或者集成在耳机的主控芯片中,或者和前端麦克风集成在一起。
而Pixel 4手机上的语音交互属于典型的高复杂度语音模型(第二类计算),这类模型往往会需要使用循环神经网络而非卷积神经网络。虽然循环神经网络的计算主要还是矩阵计算,但是如何优化模型和片上内存以尽量减少内存访问带来的消耗仍然是最关键的设计要点。
与卷积神经网络不同,循环神经网络中的数据复用程度并不高,因此如何开发和优化相应的模型/硬件必须要使用和卷积神经网络不同的方法,这也是目前循环神经网络计算硬件的主要挑战。相较于传统的卷积神经网络,循环神经网络的硬件支持在业界目前还处于较早期的研发阶段,但是相信随着这类复杂离线语音交互应用的普及,会有越来越多的设计方案和芯片解决方案出现。
我们估计未来可能的解决方案有几种形态:首先是对于功耗和性能要求并不严格的场合,通过把循环神经网络的模型设计成非常小的尺寸,可以通过类似DSP或者NEON这类支持矩阵加速的IP模块去做计算。这种方法的好处是可以快速部署,只需要设计软件即可,硬件上不用做太大改动,但是问题是没法优化循环神经网络对于内存访问。在对于性能和功耗有更高需求的场合,则可望会出现更专用的硬件架构以完成加速。例如,目前用于语音应用的循环神经网络往往稀疏度较高,因此通过设计支持稀疏矩阵存取和运算的专用加速器可望能实现更高的性能和更低的功耗。
总而言之,随着语音接口的普及,我们可望在更多语音相关的硬件上看到DSP类IP的出现,同时随着离线语音复杂交互的普及,我们可望会看到专用的语音加速芯片/IP。
隔空手势操作
除了语音交互之外,谷歌此次发布的Pixel 4手机上的另一个亮点是使用毫米波雷达来实现隔空手势交互。
Pixel 4上的毫米波雷达芯片系原谷歌先进研究项目(ATAP)project soli的商业化,该毫米波芯片使用60GHz频段,并且可以用雷达的方法去检测到目标与手机之间的距离变化,从而实现隔空手势操作。
具体来说,雷达传感器芯片的技术原理是首先发射出电磁波,而发射的电磁波经过用户手的反射回到传感器端,就能根据回波来检测用户手的位置和动态,并借此完成三维非接触手势检测。
Pixel 4上雷达芯片使用的是57-64GHz的频段,理论上可以实现毫米级别的分辨精度。根据之前Project Soli发布的毫米波雷达传感芯片(属于此次使用在Pixel 4中雷达芯片的原型版本),芯片大小约为8mm x 10mm, 芯片上还有天线阵列(绿色框内)用来实现波束成型,根据官方信息该芯片上集成了四个发射机和两个接收机,使用波束成形来提升分辨率。
使用毫米波雷达也有局限性。主要问题就是硬件对于尺寸和功耗的需求——毫米波雷达如果需要做高精度高分辨率检测需要使用复杂的天线和/或多个雷达收发阵列。在60GHz频段上,复杂的天线阵列的体积很大,而如果使用多个雷达收发阵列则会大大增加系统功耗。本次媒体对于Pixel 4中毫米波雷达的测评中分辨率并不高,据说也是因为Pixel 4硬件设计中留给雷达的空间过小以至于无法安放下能实现高分辨精度的雷达收发机阵列和天线阵列。当然,这个问题可望在之后能通过优化硬件设计来解决。
事实上,使用手势操作智能设备一直是业界开发的方向。传统的方法是使用摄像头结合机器视觉的方法。2D摄像头难以检测到手势在深度方向的变化,因此限制了交互。微软 Xbox的Kinect使用ToF 3D摄像头的方法来支持手势操作,但是3D摄像头的使用环境会受到限制:机遇结构光的方案速度太慢,而基于ToF的方案在明亮的环境中性能会打折扣。
除了视觉方案之外,超声波也是一个可行的方案。超声波方案与毫米波方案原理相似,只是超声波方案使用的是超声波而不是电磁波。超声波方案的优势是功耗较小(可以小于1mW而毫米波方案的功耗在10-100mW),缺点是必须使用CMOS工艺无法实现的超声波元件,而毫米波方案可以完全使用CMOS电路实现,集成度较高。因此,在智能设备的隔空交互领域,毫米波雷达和超声波在具体技术指标上可以说是各有千秋。
如果把视角拉远一些,我们则认为基于电磁波和毫米波的方案有更大的可扩展性。我们认为,在手机中加入毫米波雷达只是这类交互的第一步。基于电磁波(包括毫米波)的交互将在未来几年内出现在更多的智能电器中。除了手势交互之外,电磁波还可以检测房间内的人员情况和物体识别,并且有望能无缝与WiFi设备相衔接,因此省去了安装摄像头的麻烦和对于隐私问题。因此,用于交互应用的射频芯片有望成为未来几年内的一个新品类。
展望未来,用于人机交互的毫米波雷达主要需要克服模组尺寸和功耗的瓶颈,为此必须优化雷达本身设计提高信噪比,从而可以在减少天线尺寸/阵列中收发机数量的情况下仍然能实现分辨精度;或者优化天线设计,以满足在小尺寸下仍然能提供很低的衰减。我们认为,随着这些技术瓶颈被逐渐突破,我们有望看到更多基于毫米波的交互方案出现在智能设备中。
来源:半导体行业观察