语音助手车载会是一个好的场景吗

时间：2020-05-20 08:51:01

关键字：语音助手全双工腾讯云语音交互

手机看文章

扫描二维码
随时随地手机看文章

[导读] 一方面，作为最接近自然交互的形式，全双工已经成为智能语音领域的“香饽饽”，各大AI语音巨头都在积极布局。另一方面，车载场景的人机交互需求也越来越强烈，在手没有被完全解放的情况下，驾驶员

一方面，作为最接近自然交互的形式，全双工已经成为智能语音领域的“香饽饽”，各大AI语音巨头都在积极布局。

另一方面，车载场景的人机交互需求也越来越强烈，在手没有被完全解放的情况下，驾驶员们对更自由、更随性、更解放的语音交互有着更强烈的需求，全双工为应用“刚需”。

与普通生活场景不同，车载环境的用户手动操作更加不便捷，而同时又往往有诸多功能操作（例如关窗、开空调）、生活服务（例如导航）、娱乐消遣需求（例如听歌），多样化需求更需要更连续的对话体验——如果每一个指令都要唤醒口令，不但用户体验不佳，从旁观者看，这种交互方式也颇有些尴尬。

与此同时，有限空间里的司乘对话，多人对话与人机交互叠加，加上驾驶环境的嘈杂，无疑对智能语音提出了更严峻的挑战。

于是，迫切的用户需求加上庞大的商业价值空间，以及车企这些年对产品创新的渴求，在这场全双工的鏖战中，车载语音场景不出预料成了玩家竞逐的焦点，全双工+车载的“搭配”迎来广阔的市场机会。例如，不久前的重庆智博会上，腾讯云小微就联合腾讯车联展示全双工语音交互技术，让用户对车载语音助手有了更多的好感和期待。

巨头鏖战全双工，也推动“第三空间”竞逐走向台前

目前为止，车载+全双工落地应用仍处于初期阶段，技术研发与应用适配同步进行中。

1、车载全双工，巨头各有玩法姿势

微软在2018年3月底宣布“全双工语音交互感官”已完成产品化落地，“长程语音交互成为可能”，到2019年8月，又宣布全双工语言交互技术已经通过车载设备完成测试，已经有了几个测试合作汽车厂。

微软的全双工语音及其车载应用是小冰项目的延续，第七代微软小冰的重心之一是实现车载商用，逐步由“玩具”转向现实价值，车载无疑是当下最恰当的选择。

而百度在押宝AI战略的大方向下，全双工技术的推广十分积极。今年7月，小度助手升级的全双工语音已经在小度在家智能音箱产品上使用，且开放赋能给更多智能硬件终端。

入局语音交互领域较早的科大讯飞，在2019年5月底发布了智能物联网操作系统iFLYOS 2.0，也在多个领域开始了全双工交互技术的应用尝试。

今年8月，重庆智博会上，腾讯云小微全双工语音技术也正式对外展示。依靠腾讯云小微这些年在语音技术上的深耕，选择了最为“刚需”的车载场景率先落地全双工交互技术，试图从最符合用户需求的驾驶场景打头阵，然后进行全域拓展。

车联网与AI助手的结合，也是技术与生态基础上的B+C的搭配，非常符合腾讯在ToB转向过程中的一贯调性。

2、技术推动下，第三空间正由概念走向实践

在很久之前，汽车就被认为是家庭、工作之外的“第三空间”，在欧美等汽车文化浓郁的国家，车的第三空间价值十分明显。

但在中国，日常出行的属性仍然占据大头，用户进入车内，听音乐、导航、调空调……在不用重复唤醒的情况下，很自然完成一套操作……把全双工放到车载场景中，如果从汽车角度看，本质上是“第三空间”的一种强化。

抛开技术，从具体场景实践来看，巨头们在全双工领域的布局和竞争，也在推动“第三空间”竞逐走向台前，谁能让用户真正体会到车上服务的便利，挖掘这个空间的用户价值，谁就能在车载场景中实现商业突围，这本身也与汽车厂商求新、求变、谋求市场增量的需求相吻合。

第三空间的体验塑造，将面对用户痛点的“三重区分”的挑战

离开汽车视角，从全双工技术视角来看，其面临的首要挑战在于，如何在连续对话中还能拥有很高准确率和响应速度。

例如，从已有资料看，腾讯云小微的全双工语音交互技术，在30秒到90秒的时间范围内（用户自行设定），一次唤醒即可实现连续对话，过程中用户可以随时打断机器的回答。

而除了全双工的特殊能力，腾讯云小微可实现车载复杂噪声环境下唤醒率97%以上，语音识别准确率96%以上，意图理解准确率高达98%。

这里不去对比这些数字的优劣，毕竟多数语音助手都能拿出还不错的成绩，但它们至少说明“全双工”交互下，准确率仍能保持高水准。不过，在汽车有限的第三空间里塑造用户体验，语音助手们还有三大硬骨头要啃——实现用户的三种“区分”需求。

1、在几何级技术难度升级的基础上，区分“情境”

腾讯云小微称包括播放音乐、导航、查股票、查天气等众多服务在内，用户都可以通过语音指令，跟车机一次唤醒、连续应答、自然交互，这其中涉及一个很重要的问题：跨情境的全双工服务。

目前的车载语音助手已经可以做到在一定场景内免唤醒，例如常用的听音乐，想听A歌曲又反悔，想听B歌曲，机器自动识别不需要用户多次唤醒。

而当场景需求延展后，全双工语音技术就不得不面临既要连续、又要跨情境“思考”的挑战，而这又几乎是汽车体验的必须，内容、导航、查询、设备控制……区分场景是“全双工”的必要技能。

很明显，即便是人的沟通在转换话题时也需要适应，机器在面临这种情境跨越的全双工语音时，其难度是乘法级的几何提升，而非仅仅做叠加而已。

2、在复杂的对话环境中，区分“人”

与欧美不同，在当下中国汽车文化中，家庭单位属于仍然强于个人单位，“每家都有车”而不是“每人都有车”。很多时候，车中不只有司机，而肯定有副驾驶等其他乘客。

所谓“第三空间”不只是为司机服务，也为所有乘客服务。

对车载全双工而言，这又带来一个特殊的问题，如何让不同的人有属于自己的完整体验。如果把全双工比作一个人，与之沟通时，司机或乘客肯定都希望他与自己的沟通是完整的。

从当前的解决方式来看，行业主要采用多音区设置：主驾唤醒之后，都是听主驾的声音，副驾的唤醒后，都是听副驾的语音，理论上，另一个人要接入全双工交互，必须重新唤醒，才可以开启自己的完整对话体验。严格来说，这是通过物理设置的替代性方案，并非机器对不同声音的完全识别，而是通过声音的来源区分“人”。行业内也正在发展的“声纹识别技术”，直接辨别不同的用户，或才是未来更为彻底的解决方案，不过这仍需要等待。

3、在丰富多样的服务中，区分“需求”

智能语音从一开始就是两条腿走路：前端听懂用户说了什么，后端根据用户的个性化需求推荐给不同的内容、服务，或者执行某些操控指令。

放到车载全双工这里，其实问题拓展到了两个层面：

怎么听懂是对机器说的，而不是对其他人说的（比如人和人聊天），不要误解用户的需求;

在确定是对机器的需求后，如何实现更为个性化的服务输出，毕竟，如果用户想吃点喜欢吃的，你随便导航到了一个用户不喜欢的店子，或者甚至用户想要去放松一下，你给导航到了公司，这样的连续交互也就失去了意义。

前者需要语音识别能力的极大加强，它还有许多细节需要用技术实现，例如腾讯云小微称其借助云端大脑，不但能理解用户的话哪些是需要响应的指令，哪些只是用户对别人说的话，这其中同样涉及复杂场景需求问题，懂更多还要区分是不是需求，挑战进一步升级。

后者，本质上可以视为个性化推荐机制的延续，考验的语音助手背后的平台数据能力，如何在尽可能短的时间内了解眼前的用户，为其提供定制化服务，强化全双工的“实质”支撑，而不是只有花架子。腾讯云小微打出“懂你所需”的旗号，通过训练后推送定制化服务内容，这是全双工技术的行业必然，只是看谁能更为准确。

对用户而言，同样是自然的交互，如同与人交流一样，与一个“懂你所需”的全双工语音助手交互，就像是熟人聊天，而与无法实现定制化服务输出的机器交互，就像是在和陌生人聊天，其体验差距无需多言。

全双工语音助手趋势不可避免，车载只是拼图的一块

几乎不会有人否认，语音助手是人机交互必然趋势。经过几年的发展，在巨头们的努力下，越来越高的语音识别准确率，各平台飚出的准确率指标，本身就证明机器的“听见”和“听懂”已经逐步实现，剩下的是不断完善的过程。

而“智商”问题一旦接近解决，“情商”问题就走向台前，让机器更贴近人，实现人性化、情感化，是语音助手必然的趋势。

于是，全双工等新技术不断涌现。几乎可以肯定的是，在未来，一方面全双工必然要突破参数瓶颈，例如没有30秒、90秒的区分，而是无限连续同时准确识别需求，就是如科幻片机器人管家那样的无缝交互，这是语音助手发展的必然;另一方面，更多其他的科技将不断涌现，例如多模态识别，将声音、图像、环境等诸多因素整合来与用户自然交互。

而显然，虽然车载急迫需要全双工等更多自然交互技术，但全双工并不只会局限于车载。几乎所有巨头的全双工技术的“理想”都是全场景应用，即便是腾讯云小微选择以车载为典型，未来也必将在全领域发力——到目前为止，在出行领域之外，腾讯云小微凭借全栈AI能力及腾讯丰富的内容和服务生态，在文旅、政务、教育、智能硬件等多个领域都有涉猎。

以硬件为例，腾讯云小微AI应用解决方案已经输送到机器人、智能电视、智能音箱、智能空调等多个品牌多款产品中，而且百度、科大讯飞、阿里等玩家都在积极布局。

可以说，车载是全双工最热的局部战场，未来的全双工将是全领域的战争，届时，当物联网真正全面落地时，汽车这样的第三空间将融入一个相互连接、不分彼此的“唯一空间”，车载全双工与家居、工作全双工联动，人与虚拟数字世界将实现无缝对接，一起拭目以待吧。

来源：科技向令说