智能语音交互与机器人服务的发展逐渐步入正轨
扫描二维码
随时随地手机看文章
(文章来源:新浪财经)
当前技术和市场环境下,人工智能还做不到真正自如的对话,尤其是机器人还没有自己的思考和观点。我们目前在落地智能语音服务场景的时候会遇到很多掣肘的问题,现在我们来看看当前的技术到底发展到什么程度。首先我们明确机器人的概念,机器人不一定有硬件本体,它可能也是虚拟的形象。例如它可能是手机的智能助理,它的载体也可能是一个音箱。
机器人智能语音服务不是机器人硬件终端,其智能是由背后的“大脑”产生的。而这个“大脑”通常是在服务端。目前NLP技术需要依赖大量的数据和算法,知识图谱和深度学习训练的数据都非常大,开放域通用NLP的数据量和计算模型数量更加庞大,所以一般无法在算力较小的终端芯片中运行,也正因为如此,“大脑”也常被人们称为“云脑”。不过,在特殊行业应用中,我们可以把云端的能力固化到本地局域网的服务器或者是PC上,这是离线本地化交付。
机器人不是无所不能的。现在的企业用户越来越务实的认识到机器人擅长:重复性的工作和人无法做的工作,比如一些危险的工作,也例如安防巡逻工作,或者是7×24小时的不间断客服工作。基于这样的务实认知,才有现在更加务实和广泛的商业落地场景。
在智能语音服务能力方面,现在我们已经可以做很多事情。早几年大家都想拥有一个像科幻电影中的机器人,但以目前的软硬件技术目前还做不到。但是,当行业内的需求开始务实之后,我们发现很多领域已经可以提供有价值的服务了。比如说,刚刚提到的生活助理可以帮你呼出电话、制定提醒,在一些商务场景中,机器人可以提供迎宾、讲解、导购、推荐、客服服务等。
通过开放域加限定域的组合,目前已经可以在垂直场景中做到比较好的体验,尤其是可以在局部替代人工的工作。这里有一段视频,是展示实际的点餐案例,大家可以先看一下。从视频中大家可以看到这样一些能力:第一,一句话包含多个意图,甚至相反的意图,机器都可以理解。
例如:给我来两杯咖啡,一杯要冷的一杯要热的,冷的要拿铁,热的要卡布奇诺,算了拿铁不要了;第二,通过配套的CMS系统,餐厅服务员可以自己修改菜单内容,不再需要有技术公司进行训练,这样就方便大规模的普及应用。像这样一些服务技能可以同时ToB和ToC,比如我们做的医疗服务技能也是如此。
另外在机器人的情感表现力方面也取得一些进步。比如像阿里和百度的TTS现在都支持SSML标签。通过人工大脑分析语境和输出内容的语义自动插入SSML标签就可以控制语音合成的效果了。这样,语音合成不再是单一的语速和语调,而是根据语境和语义有不同的节奏,甚至是自动配背景音乐。接下来有一段视频,朗读诗词时的背景音乐都是TTS自动合成进去的。未来这样的技术会使得我们机器人的情感表达更丰富。另外,在高噪声环境下的语音识别一直是很头痛的问题,目前通过非等距MIC阵列+机器视觉成功解决了高噪杂环境的语音识别问题,也使得智能语音服务的场景可以更广泛了。
此前许多智能语音服务需要与业务系统深度对接,遇到实现难度大、交付周期长等诸多问题,主要是想一步到位解决问题,但目前人工智能技术整体处于初级阶段,还在快速发展,现阶段不可能一步到位解决所有问题。打造高性价比和快速个性化的轻量级智能语音服务集成方案可以在很多场所替代人,因此更容易大规模普及应用。
未来大屏幕电视机可能会成为智慧养老的一个真正的智能控制中心,而不是一个具体的机器人。因为在电视机上的虚拟人既可以成为老人的孙子形象,也可以是老人当年梦中情人的印象。通过电视和分布在屋内多处的语音交互控制模组可以控制全屋,而全屋各个设备不需要全部装上主机和屏幕。此外还可以跟老人的智能手表进行协同控制,并且可以实现控制权自动交接等等。
最后,对于未来,随着人工智能越来越多普及到生活的方方面面,在便捷的同时我们将面临一个很大的问题,就是用户隐私与更加优质的用户体验之间的矛盾问题。这个问题需要所有从业者一起思考如何平衡这个矛盾。