4+1环形五麦克风阵列开创语音交互新格局
扫描二维码
随时随地手机看文章
人工智能的起源是在1956年Dart Month会议上,是一种能够和人一样进行感知、人质、决策、执行的人工程序,如今人工智能正在成为时代的趋势,逐渐进入真正爆发的前夜。目前在计算智能和感知智能方面AI都已经赶上甚至超过人类,Alphago战胜李世石就是一个很好的例子,而认知智能则是当下人工智能的重点挑战。
为此,科大讯飞在3月30号在深圳阿基米互联网公社举办“讯飞核心技术开发日——麦入云端,引领智能交互新主义”沙龙活动,分享了对人工智能的理解和为此而做出的努力,并带来了完整的智能硬件语音交互解决方案和开放平台核心交互技术。
图:科大讯飞开放平台副总经理马汉君
科大讯飞开放平台副总经理马汉君表示,人工智能分成三个阶段,分别是计算智能、感知智能以及认知智能。目前计算智能已经超过了人类的一种模式,从最开始的原子弹的计算已经代表了计算的能力;感知智能,机器人正在快速的接近人类,美国在研究机器狗、谷歌无人汽车也证明这点;认知智能,这才是当前人工智能的挑战,就是如何让机器对知识的一种学习和理解。
同时指出,在去年讯飞发布了AIUI,这是一个为智能硬件量身定制的智能交互方案,重新定义了万物互联时代人机语音交互标准,具备了远场降噪、方言识别、语音纠错、多轮对话等功能,通过统一接口、开放的服务扩展、灵活的能力搭配实现人机交互与产品体验的结合。科大讯飞希望和合作伙伴一起,用人工智能改变世界。
图:科大讯飞云平台事业部产品经理张良春
在人工智能领域,科大讯飞带来打破远场语音交互瓶颈的最新利器——环形五麦克风阵列。科大讯飞云平台事业部产品经理张良春表示,五麦麦克风阵列是常说的四加一环形,在这种范围内是在人声识别有非常好的要求,其远场拾音距离可达5米、支持360全平面拾音角度、支持连续唤醒、回声消除、语音打断。
4+1环形五麦克风阵列产品模式
张良春指出,使用科大讯飞的麦克风阵列模块可以帮助开发者迅速开发产品,大大节省产品开发周期,也提供包括单麦、双麦、四麦线性、环形五麦和环形七麦等软核方案,特别是环形七麦方案支持7米拾音距离、360°声源定位、±10°声源定位精度,阵列录入的音频信噪比更高。同时,硬件方案搭配科大讯飞开放平台的语音唤醒闭环优化服务、语音识别、语义理解深度定制、身份鉴别、自然语音合成等功能,可以让开发者的产品如同黑暗中的萤火虫那么鲜明和出众。
这个是五麦克风阵列的一些产品模式,主要是把语音数据变控,以及音频处理都放在一个硬件上。有五个麦克风同时收录了5个音频,同时送入硬件模块中,可以对信息进行处理,机器也需要给它供电。张良春谈到,这个模块的优点就是快速集成,可以快速的形成产品,就一个字快,在正常的条件下有优点,也有一些不足之处。它的不足之处肯定就是成本有点偏高,只适合小批量的开发来使用。
在五麦克风阵列软核的方案上,有两个方面值得重视。一个是音频收集,由音频收集到音频汇聚到处理,每个结点讯飞都会为提供相应产品,帮助用户来更好的集成软件;另一个是音频汇聚,基本上音频处理的CPO或者IPO在处理音频只能处理移动云,还需要有一个音频汇聚的电路进行处理。