探境科技横空出世
扫描二维码
随时随地手机看文章
根据 ReportLinker的预测,到2024年,全球智能语音市场规模将跃升到215亿美元,而在当中AI语音芯片就扮演了一个关键角色。不同于过往的芯片只考虑PPA,开发者在选择语音芯片的时候更多是考虑其体验,但这是很多过往的硬件解决方案所不具备的。这就吸引了众多传统厂商或者初创企业开始纷纷涌入AI语音芯片这个赛道,用MCU、DSP或者ASIC的方案来解决现有,有些厂商甚至还推出了颠覆传统的新架构去抢占市场。
但在行业专家看来,这些方案或多或少都存在一些问题。要了解这一点,就必须从语音识别行业的一些现状说起。
语音识别面临的几大挑战
以智能音箱为例,现在的语音识别产品在厂商的智能家居规划蓝图中是扮演一个人与机器交流的桥梁,那在实际应用中就要求音箱能够听得到人说的话,同时还要求它听得清晰和听得准。这就提出了第一个挑战——那就是信噪比。
所谓信噪比,就是目标信号与干扰信号强度比值的对数,我们需要一定的信噪比,才能让机器听得清楚。但根据声音的传播特性,它在空气中衰减会非常大,但人在与智能音箱交流的过程中,可能会处在不同的位置和距离。这就给相关的方案提供商提出了一个难题,这也是语音识别所面临的最大挑战。
第二个问题是非稳态的噪声影响。如果我们面对的是规律的噪声,应对的办法无疑会简单很多。但在实际的使用环境中,我们经常会面对的是带有突发性和不可预见性的噪音,这给供应商也带来了不小的挑战。
第三,多声源的问题。智能音箱在使用的过程中,只会听从一个声源的指令,但在人机交流的过程中,必然会出现干扰源。如何处理这个干扰的问题,也困扰着相关供应商和开发者。
而其实面对这些问题,产业链已经想了不少应对之法。例如麦克风阵列、波束成形和降噪的引入,更强的人工智能芯片加持,但这依然没有能彻底解决问题。
如上图所示,在传统方案中,系统最后识别的信号是在波束成形之后做的,因为波束成形依赖于声源定位(即DOA),但DOA一般用单MIC信号来做检测。换而言之,我们这样设计的目的原本是为了提升唤醒率和识别率,但依赖于单MIC信号的检测之后,两者之间就存在相互依赖的关系,这就会给设备的唤醒率造成影响。
其次,传统方案里面有多个模块和多个环节,但他们并不都是以降低识别率为优化目标,这就让降噪、信号增强和最后的识别可能会出现不适配的情况,使得系统虽然降了噪,但没有得到想要的识别率的提升。
再者,传统的流程对硬件要求非常高,对MIC的一致性以及电容元器件的一致性要求非常高。这就节能会导致大家在实验室和在量产线上取得不同的结果。量产场景下的识别率非常差。这主要与波束成形和声源定位要求高,一旦出现波动会影响识别效果有关。
此外,波束成形算法原理是增强设定波束内的信号强度,衰减波束外的信号幅度。那就意味着当干扰声源和目标声源方向非常接近的时候,信号和噪声是会同时增强,这是传统波束成形算法也不能解决的问题。
单从芯片的角度看,也有不少的困难要面对。如算力问题、冯诺依曼架构带来的内存墙问题,还有基于浮点训练出来的模型与定点推理之间的不匹配引致的重新训练和精度丢失等问题。其他如对神经网络支持不够、功耗过高和开发复杂等也是当下很多语音识别芯片的掣肘所在。
市场渴求更好的解决方案。