稳定的低功耗语音命令系统的设计考虑
扫描二维码
随时随地手机看文章
语音助理和集成正在大多数产品,电器和技术引入市场。尽管如此,这些有用的语音助手总是在听激活/警讯,这通常会使用很大的力量,这并不是什么秘密。在科技发展迅速的世界里,必须考虑它对能源消费的影响。
本文提供了使用语音活动检测(VAD)的低功耗、始终在语音命令系统的设计考虑。它探讨了在选择创建易于使用的高能效语音用户界面(VUI)所需的组件时的权衡和考虑。
VAD功能在听一个警醒词之前检测到环境中的人类声音,这意味着当没有人在家时,你的语音助理不会浪费不必要的精力。据估计,全世界有42亿名数字语音助理,预计到2024年将增加一倍。将这一技术应用到语音助理软件和其他依靠语音集成的产品中,将大大降低使用语音助理的人的能源消耗。
有几个硬件架构来实现V只能系统。一般来说,典型的语音用户界面实现包括麦克风,或者是一个麦克风,或者是一个麦克风阵列连接到一个音频处理器,用于捕获和处理语音。
传入的音频流可以在边缘音频边缘处理器、内置音频边缘处理器的智能麦克风或标准应用处理器(AP)上进行处理。边缘音频处理器被优化为低功率和低延迟的音频信号处理。除了提供专门的处理输入音频,边缘音频处理器也可以用于后处理音频输出信号。如果VAI系统是云连接的,那么音频边缘处理器也可以通过具有无线连接的主系统芯片与云连接接口进行通信。本文介绍了VII系统的两种不同实现,以及它们各自的权衡。
超低功率VAD(语音活动检测)
图1所示的架构支持超低功率VII,使用模拟信号路径,包括模拟麦克风和模拟比较器,以提供一个尾波触发器。当声音活动被检测到时,模拟信号链会产生一个中断来唤醒音频处理器,以获取声音。该设备还可以包括一个"推到说话"功能,即用户按下按钮唤醒音频处理器。
图1超低功耗,无前滚缓冲的远程控制用的一直在VAI硬件信号链上。
模拟尾音麦克风必须总是听环境,因此这个麦克风,连同比较器,必须消耗很少的功率。一个高效率的音频处理器的例子是,在其最简单的觉醒触发模式下,功率消耗不到1兆瓦,高级音频处理的1mb内存是诺尔斯I8201。尽管图1所示的方法为远程控制和可穿戴设备中的永远的VI提供了一种简单的低功率AAD(声学活动检测)方法,但它有其局限性。这个实现唤醒了音频处理器的任何声音信号,可以导致高整体系统功率消耗在吵闹的情况下。同时,语音用户界面系统是云连接的要求音频数据在一个时期之前,要捕获,以提高准确性的叫醒字检测。这通常被称为预卷,并且是一个必须有的要求,由亚历山大启用的设备和其他智能扬声器设备。
图2支持智能扬声器等设备的预滚缓冲的架构。
图2显示了支持智能扬声器等设备预滚缓冲的架构。这些设备通常有更大的电池和/或可能没有一个电池的多个月的电池寿命要求。VUI系统一直在运行,倾听环境并在循环缓冲区中预先记录。预卷的长度一般为500毫秒的音频数据,用来校准环境噪声水平。
有几种不同的方法来设计始终如一的前端架构。音频处理器的选择取决于使用的麦克风的数量,以及它们是模拟的还是数字的。
上面所示的架构使用了一个用于语音活动检测的诺尔斯a611,用于波束形成的Sph055m4h1-康奈尔数字麦克风,以及用于音频处理的诺尔斯a8201。如下面一节所讨论的那样,诺尔斯?a611是一个为系统设计者提供好处的智能麦克风。
麦克风选择
对于图1所示的架构,单个模拟麦克风和比较器被用作触发器输入,以便在检测到声音活动时唤醒音频处理器。它应该是一个低功率的模拟麦克风,信噪比最好高于62分贝。诺尔斯西塞尼MEMS麦克风组合提供了几个选择的尾音麦克风。例如,SPV1840LR5H-B卡斯卡德模拟麦克风是一个很好的选择,当打开时,只需45英寸。一直在模拟路径,包括一个麦克风,放大器和比较器,消耗不到67兆a。市场上有很低的、无间断电源(10-OMA)的压电麦克风,但它们的信噪比通常很低,这可能会影响系统性能。
对于图2所示的预滚缓冲功能架构,带有嵌入式音频处理器和充足内存的麦克风,可以在2秒钟的循环缓冲区中连续捕捉语音数据,如诺尔斯Ia611,是连续语音活动检测的可行选择。它还伴随着一个移植语音触发器和命令的生态系统,比如亚马逊的阿列克莎。当关键字被检测到时,预先滚动缓冲区和发出的语音音频都被发送到云自动语音识别(ASR)引擎。在像蓝牙扬声器这样的电池操作设备中,iaa611一直保持着0.39ma@电池1.8V的语音唤醒功率和90%的效率,这使它成为语音用户界面的一个很好的选择。该设备还接受来自数码麦克风的PDM输入,并可用于支持波束形成的主机bt-soc处理器,通过通过音频一旦系统醒来。
虽然对于预卷应用程序来说,这种一直使用的电源是可以接受的,但是对于非预卷架构来说,也值得考虑,如图1所示。如前所述,模拟尾音麦克风将触发任何传入的声音并打开音频处理器。在吵闹的环境中,这可能是个问题,比如当电视打开的时候,会有许多错误的醒来导致严重的权力浪费。如果使用语音活动检测代替低功率模拟尾音麦克风,系统只在检测到一个关键词时才打开。从逻辑上讲,为什么使用语音活动检测麦克风比简单的模拟尾音麦克风在噪音环境下更有效。
图3显示了模拟数据,这些数据比较了一个典型的电视遥控器使用VAD的VAD611的电池寿命天数。一个竞争性的压电低功率AAD麦克风和一个音频处理器,在不同的时间声活动的时间。当电视机或其他家用电器打开时,或在有闲言碎语的其他情况下,可以出现声学活动。如图3所示,在大约3小时内有一个交叉点,使用模拟AAD在竞争对手的麦克风上相对于IAA611上的语音活动检测的功率优势就消失了。
在5小时的声活动,语音活动检测解决方案提供了8天额外的电池寿命比竞争的基于AAD的解决方案。把这个优势放在背景之下,美国。根据2017年发表的尼尔森研究报告,成年人每天看近八小时的电视。随着对互联网连接设备(如智能电视、游戏机和其他多媒体设备)的需求不断增加,美国典型的声学活动时间越来越长。家庭也可能继续增长。使用基于智能VAD的唤醒将有助于系统设计人员开发更高效的V只能系统。
图3VAD与AAD的遥控电池寿命。
结论
从智能家居,好客,数字工作场所,语音支付,智能能源管理,语音边缘和医疗保健,一直到工业化的应用,改变工厂地板,语音增加了灵活性,效率,可持续性,以及新技术的采用接受。
设计语音用户界面的各种硬件架构,以及麦克风部分,根据终端设备的应用程序和设计者的偏好,每个都有略微不同的需求;例如,启用亚历克的设备和智能扬声器都需要一个预滚缓冲功能架构。
重要的是,电子工程师和设计师要仔细评估终端设备将如何利用语音、他们希望访问的能力,并从那里确定正确的架构和麦克风组件。