语音交互与智能家居之间有什么联系?语音交互的技术壁垒在哪里?
扫描二维码
随时随地手机看文章
想象着,当你下班回到家,轻轻地对门说声“我回来啦”,在接收到你信息一瞬间,门不仅自动打开,并在短时间内开启了空调和电视。这种感觉是不是很棒!
在很多国外科幻大片所描述的未来生活中,使用语音方式来操控家电的炫酷场景也是无处不在。在《钢铁侠》系列电影中,男主角回到家以后,说声想喝咖啡,咖啡机便开始冲咖啡,这种生活真是令人羡慕。随着语音交互技术的不断成熟,未来电影中的画面将会很快变成现实哟!
语音交互与智能家居数据显示,2018年,中国智能家居规模将达到1800亿元,到2020年,智能家居市场规模将达到3576亿元。分析师预测,2021年全球智能家居市场规模将达5000多亿元。
在汽车及互联网领域,语音交互功能已经很普及。福特的SYNC系统专为手机和数字媒体播放器配备的福特车载多媒体通信娱乐系统,是目前车载系统中采用语音交互技术的成功的案例,已经广泛应用在福特多个系列汽车中。互联网巨头苹果在其iPhone 4S中推出智能语音助理应用Siri后,Google公司也在其安卓智能手机操作系统中推出了GoogleNow智能语音搜索及问答服务,微软公司也将语音技术应用于WindowsPhone。
在智能家居领域,国外的IT巨头已先后以智能家庭产品与语音相结合的方式进入智能家庭领域:谷歌收购NEST布局智能家庭,不断强化Google Now的语音入口;苹果HomeKit智能家居平台与Siri也不断加强融合;微软也发布了语音助手Cortana(小娜),为它在智能家庭领域扩展交互入口。
在国内,早于2014年8月,语音巨头科大讯飞就宣布进军智能家庭市场,并发布了智能语音助手灵犀3.0来操控智能家居设备,这些设备都需要事先和灵犀3.0对接,便可以在灵犀App中搜索到设备,然后进行语音操控。目前支持的设备已经有不少,包括了电视、咖啡机、电灯、空调、热水器等。
随着国内外巨头们对语音交互领域投入的增加,语音核心技术正逐步成熟,曾经的技术瓶颈亦在慢慢被突破。这其中语音识别技术是语音交互的基础与核心,“语音识别”技术相当于给计算机系统安装上“耳朵”,使其具备“能听”的功能。该技术经过语音信号处理、语音特征处理、模型训练及解码引擎等复杂步骤,使机器最终能够将语音中的内容、说话人、语种等信息识别出来。
语音交互的技术壁垒在哪里?
前文中说到了语音交互技术在智能家居领域的运用,作为主流人机交互方式之一,语音交互方式将人们的双手从触摸屏解放出来,减少人们在数据输入上花费的时间。但语音交互并不适用于所有场景,目前,智能家居领域,语音交互还存在以下几个问题:
远场及噪音干扰下识别准确率有待提升及端点检测中的降噪处理技术。这也被称为“鸡尾酒会问题”,寓意在嘈杂的鸡尾酒会上远距离准确识别某一个特定的声音。当前该问题解决方式是多通道信号处理,例如麦克风阵列的变换。相关落地技术包括思必驰&亚马逊Echo“环形6+1”麦克风阵列, 以及悠响声学Mic随意安装语音拾取技术。
端点检测、特征提取和解码过程中模型优化。如果放下现有问题的假设与相关设计,而是交托给机器,让其从训练数据中学到的转换模型来把语音转成文字序列,可能更简单高效。
当前主要用端到端CTC模型+Attention模型来优化。地平线的内部评测证明:在1000小时的数据上,CLDNN+CTC模型相比于之前的DCNN模型,性能大概提升了 15%~20%。但端到端的实用性存在争议,现阶段它只是流程中的某一个部分的步骤简化,尚未囊括解码部分,而且需要大量的训练集。
增强预测性和可适应性。在日常人际交流中,人们会预测对方下一句会说什么。而让机器获得相似预测能力的突破口在半监督,无监督学习,尤其是强化学习和迁移学习。腾讯之前有一个PAC-RNN模型,能够非常快地自适应,从而持续改进识别结果。但是这个模型由于递归神经网络的环路比较大,训练上比较困难。
在硬件方面,AI语音识别领域的芯片研发也是热点。而在终端,语音识别两个关键因素是实时性与成本,研发语音识别专属芯片是终端语音识别硬件发展趋势,终端芯片的例子包括:启英泰伦终端智能语音识别芯片CI1006,云知声UniRobot硬件芯片系统,和MIT在ISSCC2017上发表的paper里的芯片。
小结:投身消费领域,智能家居改变了消费者的居住方式,语音交互为智能家居创造了一个安全、舒适、便利和信息化的居住空间做了不少贡献,使人们适应在信息社会的快节奏中家居与外部世界保持完全开放的生存状态。智能家居以家庭为单元,运用多种信息技术,达到监控与信息交互的目的,在未来,居住更加智能、消费者的居住体验更加舒适,一场由语音交互的变革看起来势在必行了。