掌握声音前处理核心技术,让语音交互更智能
扫描二维码
随时随地手机看文章
(文章来源:数码猴子)
随着AloT物联网产业的纵深发展,智能语音交互技术也成为应用最普遍的交互技术。除了最常用的智能手机外,智能音箱、智能家居、智能机器人等众多智能终端设备的语音应用不断涌现,使得智能语音技术成为智能设备交互的主要手段。
语音识别作为人工智能发展最早、且率先商业化的技术,近几年来随着机器深度学习技术的突破,识别准确率大幅提升、人机交互的距离也在提升。但是,技术的推进是无止境的,行业专家表示:想要让语音识别更加准确,需要解决两方面的问题:一方面,在语音增强、麦克风阵列以及说话人分离等多项技术领域持续投入,并结合后端语义,促进对上下文的理解,从而提升识别效果;另一方面,需要从产品设计上进行优化,比如通过进一步交互,使语音识别变得更为准确。对芯片设计原厂来讲,应该研发出更高端的主控芯片,在声音前处理方面有更加优秀的表现,让拾音的距离和效率都能大幅提升。
炬芯科技作为全国领先的声音前处理技术芯片原厂,掌握声音前处理核心技术。听到和听懂的第一步在于准确的获取用户的声音(即拾音),否则无论云端的虚拟助手多么智能,也是盲人摸象。小编最近走访炬芯科技得知,拾音其实分为远场拾音(3 到 5 米)和近场拾音(1 米内)。
比如,以Siri为代表的智能手机就是近场拾音,采用的是单麦克风,可在近距离、低噪声的情况下拾取符合语音识别需求的声音。但是一旦将智能手机放在有噪声的较远的距离,Siri的识别率就会直线下降,单麦克风的局限就凸显了出来。不仅如此,由于噪声、混响等因素的存在,远场拾音还要与远讲语音识别算法相匹配,才能真正做到“听清和听懂”。
声音的前处理技术,是声音没有进入传输、没有存储之前的处理。声音前处理目的,就是让声音的存储、传输效率更高,识别率更好。声音的“听到”主要依托的是麦克风。主要形式为单个麦克风或麦克风阵列(多个麦克风按照一定规则排列,在特定空间对声音进行获取和处理)。而基于麦克风的语音信号处理算法则是让声音“听懂”的关键。麦克风阵列是语音交互的第一步,简单来讲,麦克风阵列是由2个及以上麦克风按一定规则排列组成,在特定空间对声音进行获取和处理的录音系统,在智能音箱落地中有关键作用。麦克风+算法,在不同的环境下排列组合,最终达到“听到”和“听懂”。