对于语音助手分类的三个层次你了解多少
扫描二维码
随时随地手机看文章
(文章来源:百家号)
现在的手机都是有着手机语音助手,虽说有时候语音助手的识别率并不是很高,但是在某种方面来说,语音助手的确是方便我们许多。而如今不仅仅是手机,汽车上也是慢慢有车内语音交互这项功能了。下面就让我们了解一下汽车上的“语音助手吧”。
2010年之前,车内语音交互是“命令式交互”。2010—2017年,“自然语音交互”发展成主流,未来,语音交互将向“主动对话式交互”发展,单纯的语音识别将变成功能更强的语音助手。国际语音巨头Nuance大中华区研究部副总裁吴建雄博士曾经用了一个非常形象的类比描绘语音助手的三个层次。
最基本的层次是打字员:他可以将你说的话准确地记录下来,这样你就不需要将相同的话向多人重复,助手会把话中布置的任务交给相应的人去做。第二个层次是办公室文员:文员与打字员的区别是,文员可以帮助你去完成一个具体的任务。例如,你想在周末去餐厅吃饭,文员会通过查询包括餐厅地点及驾车路线、停车场位置及是否有空位、能否订到位置等信息来完成该任务。
最高层次是秘书:秘书与文员的区别是,秘书能够领会领导的意思,即很多事情领导即便不说,秘书也能心领神会,将其完成。
就这三个层次的实现情况,目前语音识别厂商在打字员层次上的功能已经做得非常好了。但对于消费者来说,理想的车载系统要随时随地听懂他在讲什么,当用户产生疑问时,车机可以即时提供相关的解决方案,帮助消费者完成任务,消费者不需要用额外的操作、烦琐的页面完成功能。
语音助手涉及的技术并不简单是语音识别,还会涉及数据的收集、处理,如何将人工智能和机器学习运用到机器处理当中,如何将这些数据衔接,将消费者用户需要的功能真正传递给消费者。目前行业内正在解决的是,如何让语音助手自动完成一个任务。其难点在于,有些时候,人并不是把任务中的所有要求细节都说出来,需要通过多次人机对话,以提问的方式来逐步获取缺失的信息。
至于要让语音助手领会人的意思,还需要积累更多有关个人习惯的数据,通过机器学习的方式来集成到语音助手系统内。需要将麦克风阵列、前端声学处理、语音唤醒、端点检测、语音识别、语义理解、语音合成等技术在整个交互链上进行深度融合的系统,并且支持全双工、多轮交互等新特性。