随着移动互联网和人工智能的发展,智能家电的在线语音交互技术也在不断完善
扫描二维码
随时随地手机看文章
随着移动互联网和人工智能的发展,基于语音的交互已经越来越重要、也越来越普及,从目前技术水平来看,在安静环境、标准口音、常见词汇上的语音识别率已经超过95%,完全达到了可用状态,由此也奠定了语音交互功能被广泛应用在包括智能手机、智能音箱、智能家电等等各种各样设备中的技术基础。
在线语音交互痛点:依赖网络和延迟大不过,目前语音交互技术的使用还是离不开网络和云端。从技术层面上看,一个完整的智能语音交互闭环的系统,包括语音信号采集和预处理(降噪、回声消除)、后端语音识别、自然语音处理(理解、决策、表述)、语音合成等各个模块。其中语音识别到语音合成过程需要较大的数据量和计算量,往往会被放到云端去处理。
无论是现今市场火爆的智能音箱还是各大家电厂商推出的智能冰箱、智能电视,采用的是语音交互大多数都是上述这种在线语音交互方案,所以设备在使用前往往需要借助智能手机将智能音箱连接网络。深圳市木瓜电子科技有限公司技术支持工程师邱松晓指出,在智能家居、智能硬件中使用语音交互,替代遥控器,可以解放用户双手,带来很多便捷性,但是,目前使用在线语音交互功能还需要先解决一些现有存在的缺点。
“在线的语音交互依赖于云端去处理,设备的前端往往只做声音的采集、回声消除和噪声抑制等处理后,就通过网络送入云端做语音识别和处理,处理后的结果又在通过网络返回回到设备中,这其中就有产生两个问题:首先,一旦网络出现问题,语音交互功能就很有可能瘫痪;其次,就算在网络状态好的情况下,设备的响应速度还是不尽理想,举例来说,前端语音处理约50ms,通过网络需要约100ms,云端处理约500ms,还有延迟,再返回,加起来估计是1S到2S,特别是国内的网络不稳定的情况下,有可能时间会更长。”
“此外,在线语音交互方案往往需要一个唤醒词,在说出唤醒词,等设备做出相应的回应后,才可以开始与智能设备对话,体验不是很好。” ”邱松晓说到。邱松晓和其公司一直在从事语音交互技术方案的开发,也给客户做过不少在线语音交互的方案,不过目前,他们也把不少精力放在一种更为简化的离线语音方案上。此模块方案可以实现单麦远场语音拾取、语音唤醒、回声消除、智能控制及语音播报等功能。
离线语音方案优势在于实时和成本离线语音方案,顾名思义就是语音识别处理在本地,并不需要上传到云端去处理。“以控制空调为例,我们先将‘请开空调’、‘调高一度’等命令词经过算法训练和模型匹配后固化在本地存储中,当进行语音控制时不需要联网,在本地存储直接调用。”邱松晓说到,“相比在线方式,离线的方式确实有局限,这类方案更多属于控制型的,不是交互型;而且由于本地的存储空间有限,不像在线方案是通过云端处理,所以命令词确实会比在线的少,一般命令词条在几十条左右。”
集成了离线语音模块的设备可以通过语音来控制执行一系列的操作指令,不过只是不能像智能音箱一般进行查询天气、新闻、讲故事、对话等交互。在智能音箱等在线语音方案如此火爆的情况下,木瓜电子同时也选择了做离线方案,除了考虑到前面提到的在线方案的不足外,其实更多是市场真正需求的使然。
一方面,包括亚马逊、京东、阿里、腾讯等都推出了智能音箱,用智能音箱控制和连接家电,希望想通过此类产品抢占智能家居入口;另一方面,各大家电巨头也纷纷布局自己的智慧家庭生态,加入语音交互、AI等功能。无论是何种方式,智能家居要落地可能还需要一段较长时间,因为这其中涉及到一整个云端平台和生态的打造,由某一家公司掌控或打通可能还是比较难的。“这样我们是否就不能享受像智能家居中语音控制家电的便利呢?,其实家庭中很多设备,包括空调、窗帘、烧水壶、晾衣架、台灯等等,并不一定需要语音交互,我们只是需要去简化他们的控制方式,例如用语音控制来替代遥控方式,赋予一款产品具备被语音控制的能力,从而更高效解决用户需求。”邱松晓表示。
对于这些仅仅需要语音控制而不需要交互的设备,用离线的方案或许更为合适。首先,离线智能语音交互模块由于没有了网络传输的时间损耗,语音交互的实时性更高,据了解识别过程只需要200ms,命令发出马上可以做出反应,基本感觉不到延迟,用户体验好;其次因为无需配网,离线智能语音交互模块具备用户开机即用的属性,无需教育用户。同时不存在网络异常的意外情况,使用友好度非常高。再者,成本更低,与在线方案十几美金的成本相比,离线的方案只需几美金;而且,离线方案的目标市场更多是单品,不涉及云端网络或数据安全问题,产出会快很多。
通过不断模型训练和测试,离线方案识别率可达95%不过离线语音往往被认为是相对在线语音识别定位更为低端的应用,但是在技术上做到“离线语音识别”其实并不简单。“我们常常说‘台上一分钟,台下十年功’,对离线识别来说,也正正是这样。在将声音送入到设备之前,同样也需要做语音的远场拾音、降噪、回声消除等处理,将处理干净的声音就会和本地的模型进行匹配,如果匹配就执行动作。整个过程看似简单,但是在命令词的模型建立也需要花费不少功夫。” 上海互问信息科技有限公司华南区销售总监孔令亚说到,“离线的方案需要给每一个命令词建立一个匹配模型,每一个词会录入至少800个左右的样本,样本经过不停的训练、模型匹配和测试,只有通过测试这个模型才定下来,放到内存中。外界发出一条指令,就会和本地的模型进行匹配,如果匹配才能执行动作。目前我们可以做到200多条命令词,不过一般应用场景在十几天到几十条就已经足够了。”
此外,离线方案在一些指令或词条的识别率甚至可做到比在线的高,例如互问信息离线语音控制模块在家居环境下达到了95%识别率、2次/天的误触发。孔令亚解释道,因为从样本和训练的数据量来看,建立模型的出发点就不一样。离线的每一个词条是专门花和时间去优化。而在线的不会去这么做,中国的语言量这么丰富,方言这么多,这个工作量就非常大。例如‘请开门’这个指令/词条,在线的方案不会专门去建立这样的一个指令样本和模型去进行训练匹配,因为工作量太大难以实现。。所以在线的语音识别是针对字或句,而不是词条,如果说一个‘打’字,在线方案可能很快可以识别,但是如果说‘打开门’,语速快些或带有情感,因为没有这个词条的大量样本训练,很有可能就会误判或识别慢。。
“为达到95%识别率、2次/天的误触发,我们要求每个语音命令词都有800人左右的样本,在声音训练过程中,不断调整命令词的语音模型,这些训练样本中也包含了多个地方性的普通话,如广东地区、湖南地区、河南地区、北京地区等普通话。”他说到,“我们生成一个命令词的时间需要6周左右的时间,前4周时间样本采集和训练,后两周时稳定性测试。互问提供的语音命令词,在国内使用几乎是没有存在太多问题,95%的识别率也是目前比较高的参数了。”
离线方案潜在市场或将开启,下半年将陆续出货“目前我们方案还没有完全推开,可以看到大家近端时间关注点都集中在智能音箱上,其实离线也是一个潜在的市场,与智能音箱也不算是竞争关系,大家各有应用场景。智能音箱去做交互都还可以理解,但是去控制一个家电的时候,这个过程还是比较复杂的,涉及到很多问题,生态问题,云平台问题、安全问题。”邱松晓分析说,“像空调、烧水壶、台灯、目前还没有涉及到和家电深度交流,这是机器人需要去做的事情,没有人会想和空调去聊天。未来如果把计算机的能力集成到家电中,你靠近了家电就能感知判断出你想干什么,这是真正的智能的,但是目前还没有人能做到这一块,也没什么人愿意去做,成本和用户体验都是一道坎。所以目前大家的诉求就是加个语音控制,多了一种控制的方式,成本也不会提高很多,但是却解决需要到处找遥控器的痛点,对消费者来说,达到方便舒适的功能就可以,不会去追求超前技术。”
离线识别方案其实早就有出现,不过因为识别率等问题一直没有铺开。早在一两年前还是85%左右的识别率,随着技术的发展,目前离线语音在家居环境中可以达到了95%,而且可以做到5m距离的远场拾音、高语音识别率,低误触发率让这一方案进入家庭、开启市场成为可能。
孔令亚指出,消费者的操作习惯、市场的需求和声音技术的积累,都是决定离线语音控制产品的市场发展的因素。近些年声音技术公司的涌出,声音信号处理技术提升和声音样本的积累,实现了离线语音识别率的提高,也就提升了用户体验,使用说话的方式去控制设备,必然会得到消费者喜欢。国内能够提供商业性的离线语音控制方案的厂商仅几家,并且前几年这几家公司都重点去投入在线语音识别和声音相关的内容服务。所以离线语音控制方式的市场打开进度也受到一定的限制。但是离线语音控制方案的市场近期必然会被打开,离线语音控制方案成本低、量产速度快,控制准确率高。离线语音控制方案以轻量级方式进入到各个产品中,而不会像在线语音识别那样生态系统复杂。
从市场反馈上看,目前家电厂商对这种方案的接受程度还是比较理想的。据了解,现在市场存货量已经超过百万级别,并且目前离线语音控制的声控台灯、晾衣架、烧水壶等已经在量产出货,在接下来的一年内,消费者将在空调、抽烟机、风扇、家居控制面板、按摩仪、故事机、空气净化器,热暖器,热水器等产品中都可以体验到,互问信息的模块都已经切入到国内这些产品生产商进行项目配合。
“我们的离线模块也是去年才开始推出,在之前有储备很多研究和设计。客户拿到样本测试到生产,可能需要半年到一年时间不等,所以还没有那么快有典型的产品出来,预计今年下半年就有成品陆续出货。接下来一年出货量肯定不止1KK。”邱松晓对于市场前景信心满满。