智能声学创新技术将开启语音智能交互的新时代
扫描二维码
随时随地手机看文章
(文章来源:新浪VR)
语音交互为本能表达,带来全新体验。早期的人机交互主要利用键盘,如打字机和DOS 系统的电脑。随着鼠标的发明和可视化图形界面的普及,人机交互迎来了第一次重大创新。随后触摸屏的普及以及多点触控的出现,令人机交互进入了二维层面。相比鼠标和键盘,多点触控能更方便、多样的实现输入。但是至于此,人机交互依然没有脱离手动的信息输入,在人机分离下无法实现互动,语音交互的出现将使这一问题得到解决。
信息密度高,自然且普适。语言是人类与生俱来的一种能力,从学习成本角度而言显著低于其他手段,语音交互天然适合人类。从普及度而言,几乎人人都会用语言进行沟通,但是在全球范围内依旧有许多不会书写文字的人。假设语音交互能够普及,在理想状态下人人都可以用语音命令操控智能设备,实现智能体验。
解放双手,更少的感官占用。除了高效的信息沟通外,语音交互可解放双手、眼睛,不需要与设备接触即可沟通,使得我们能够实现一心多用和在特定情况下精力集中。诸如在处于驾驶状态时,我们就可以通过语音助手来查看智能手机上的信息,从而避免视觉查看而导致的注意力不集中。根据Statista 的调研数据显示,2016 年美国用户使用智能语音识别主要原因中,双手和眼睛被占用为首要理由,占比达60%。可见智能语音识别对于提升用户便利性有很大的帮助。
各类语音交互软件不断面世。近期三星发布了其语言识别助手Bixby,正式用于S8 系列、Note8 手机。事实上,从产品推出的时间顺序来说,三星Bixby 还只能算作是智能语音交互领域的一位新玩家。在Bixby 之前,就已经有了诸如苹果Siri、微软Cortana、谷歌Google Assistant、亚马逊Alexa 等在内的多款智能语音助手被业界熟知。
AI 技术提升语音识别准确度。在提升语音识别的准确度上,过去主要依靠算法的进步和样本的积累,随着深度学习算法的出现,语音识别的准确率有了明显的进步。深度神经网络算法可以把连续多帧的语音特征并在一起,构成一个高维特征,最终的深度神经网络可以采用高维特征训练来模拟。由于深度神经网络采用模拟人脑的多层结果,可以逐级地进行信息特征抽取,最终形成适合模式分类的较理想特征。