掌握声音前处理核心技术，让语音交互更智能

时间：2020-05-11 22:30:01

关键字：语音交互核心技术语音识别麦克风阵列

手机看文章

扫描二维码
随时随地手机看文章

[导读] （文章来源：数码猴子）随着AloT物联网产业的纵深发展，智能语音交互技术也成为应用最普遍的交互技术。除了最常用的智能手机外，智能音箱、智能家居、智能机器人等众多智能终端设备的语音应用不

（文章来源：数码猴子）

随着AloT物联网产业的纵深发展，智能语音交互技术也成为应用最普遍的交互技术。除了最常用的智能手机外，智能音箱、智能家居、智能机器人等众多智能终端设备的语音应用不断涌现，使得智能语音技术成为智能设备交互的主要手段。

语音识别作为人工智能发展最早、且率先商业化的技术，近几年来随着机器深度学习技术的突破，识别准确率大幅提升、人机交互的距离也在提升。但是，技术的推进是无止境的，行业专家表示：想要让语音识别更加准确，需要解决两方面的问题：一方面，在语音增强、麦克风阵列以及说话人分离等多项技术领域持续投入，并结合后端语义，促进对上下文的理解，从而提升识别效果；另一方面，需要从产品设计上进行优化，比如通过进一步交互，使语音识别变得更为准确。对芯片设计原厂来讲，应该研发出更高端的主控芯片，在声音前处理方面有更加优秀的表现，让拾音的距离和效率都能大幅提升。

炬芯科技作为全国领先的声音前处理技术芯片原厂，掌握声音前处理核心技术。听到和听懂的第一步在于准确的获取用户的声音（即拾音），否则无论云端的虚拟助手多么智能，也是盲人摸象。小编最近走访炬芯科技得知，拾音其实分为远场拾音（3 到 5 米）和近场拾音（1 米内）。

比如，以Siri为代表的智能手机就是近场拾音，采用的是单麦克风，可在近距离、低噪声的情况下拾取符合语音识别需求的声音。但是一旦将智能手机放在有噪声的较远的距离，Siri的识别率就会直线下降，单麦克风的局限就凸显了出来。不仅如此，由于噪声、混响等因素的存在，远场拾音还要与远讲语音识别算法相匹配，才能真正做到“听清和听懂”。

声音的前处理技术，是声音没有进入传输、没有存储之前的处理。声音前处理目的，就是让声音的存储、传输效率更高，识别率更好。声音的“听到”主要依托的是麦克风。主要形式为单个麦克风或麦克风阵列（多个麦克风按照一定规则排列，在特定空间对声音进行获取和处理）。而基于麦克风的语音信号处理算法则是让声音“听懂”的关键。麦克风阵列是语音交互的第一步，简单来讲，麦克风阵列是由2个及以上麦克风按一定规则排列组成，在特定空间对声音进行获取和处理的录音系统，在智能音箱落地中有关键作用。麦克风+算法，在不同的环境下排列组合，最终达到“听到”和“听懂”。