从大的方面来说语音交互可以分为三大主线
扫描二维码
随时随地手机看文章
(文章来源:百家号)
相信大家如今在用智能手机的时候,很多时候都会用语音助手来帮助自己。但其实你知道,如今大部分汽车的汽车语音交互主要是通过方向盘上唤醒语音识别的按钮来开启的,可问题是现在的语音识别的准确率并不高,还有很多问题需要结局。,而要搞清楚语音识别在哪里出现问题,首先需要了解整个语音交互的流程。从大的方面来说,语音交互可以分成语音识别、语义理解、语音合成三大主线。
在语音识别之前,首先需要做到语音唤醒,唤醒是人机交互的主要触发方式,和跟一个人聊天首先要叫其名字是一个逻辑。机器被唤醒后,就需要知道说话人的方位,才可以定向地拾音,解决噪声、混响、回声带来的影响,同时对说话人进行语音增强。这个声源定位和语音增强主要是用麦克风阵列的相关技术,要保证识别率满足车载交互需求,还要有专门针对远场环境下基于大量数据训练的声学模型,并解决人声检测和断句问题,过滤无效语音,做出快速响应。
语音交互必须解锁的第二项技能是语义理解。相对完美的语义理解,不是指导式的,而是不设定规则或者语法的自然对话的。在语音模型中,一般有专门的模块去判断语音命令里的意图,在语句中寻找关键参数。意图与参数就构成了这条语音命令所要表达的信息。比如说“我要去天安门”和“天安门在哪儿”对于系统来说是一样的语义,“天安门”是参数,“在哪儿”和“要去”是意图。当然,这些模型并不需要人去手动逐个建立,也是通过大量的数据模型去训练机器。
完成语音识别和语义的理解后,机器再通过语音合成,把信息传递给用户,构成一个完整的语音交互回合。虽然语音交互存在已达半个多世纪,车机、后视镜、HUD等硬件都在使用语音交互,但仍然体验不佳,这其中有识别的原因,也有语义理解的原因,还有诸如不能纠错、指令式交互体验乏味、操作复杂等原因。很多交互方案还是触屏+部分语音的方式,不同应用中内置不同的语音方案,造成了操作的烦琐;还有的缺乏语音唤醒,不能真正解放双手。
总体而言,基于终端大规模数据的收集和深度学习技术的出现使语音技术逐渐走向成熟,更好的语音交互需要用到更大体量的数据集以及更好的语音模型。虽然要花费的时间很多,但值得期待的是,语音识别叫醒耳朵只是第一步,当机器慢慢能够听懂人类的话,下一步必定是能够亲口说出“Hello World”,开启真正的语音交互时代。