智能座舱中的驾驶员语音及情感识别技术深度详解

[导读]随着汽车成为人们日常生活中越来越重要的工具，用户需要安全、舒适、更智能的驾驶体验，智能驾驶舱的概念也逐渐出现。智能驾驶舱旨在通过支持包括语音和操作手势在内的多模式交互，尽可能提高用户体验和驾驶便利性。语音在现阶段的智能座舱交互中起着至关重要的作用，导航、广播和内容搜索等车载媒体功能需要语音识别。车内硬件交互可以使用语音控制，例如打开空调和关闭天窗。由于智能座舱的条件，语音面临许多挑战。首先，驾驶舱是一个特殊的声学环境，具有各种噪声干扰，包括媒体噪声、风噪声和相对封闭且较小的空腔中的人声。同时，驾驶员情绪是驾驶员生理心理状态的外在表现，影响着驾驶员的驾驶决策和行为。随着智能汽车的快速发展，动态驾驶场景中驾驶员的情绪监测逐渐成为研究的热点。

随着人们对汽车安全性能要求的进一步提升，汽车安全相关的法律法规越来越完善，很多国家和地区要求汽车必须配备自动紧急制动系统(AEBS)或者ADAS系统等，随之而来的是对功能告警车载语音需求的增加。尤其是用于告警的语音，对响应性能要求非常高，不能出现语音播报延迟，这些都对车载语音的品质要求提出了新的挑战。

随着汽车成为人们日常生活中越来越重要的工具，用户需要安全、舒适、更智能的驾驶体验，智能驾驶舱的概念也逐渐出现。智能驾驶舱旨在通过支持包括语音和操作手势在内的多模式交互，尽可能提高用户体验和驾驶便利性。语音在现阶段的智能座舱交互中起着至关重要的作用，导航、广播和内容搜索等车载媒体功能需要语音识别。车内硬件交互可以使用语音控制，例如打开空调和关闭天窗。由于智能座舱的条件，语音面临许多挑战。首先，驾驶舱是一个特殊的声学环境，具有各种噪声干扰，包括媒体噪声、风噪声和相对封闭且较小的空腔中的人声。同时，驾驶员情绪是驾驶员生理心理状态的外在表现，影响着驾驶员的驾驶决策和行为。随着智能汽车的快速发展，动态驾驶场景中驾驶员的情绪监测逐渐成为研究的热点。

截至目前，智能座舱已逐渐成为智能汽车的标配，包括极越01、智己L7、AITO问界M5等在内的多款汽车产品均已配备了具有语音交互功能的智能座舱。以极越01为例，目前极越01拥有基于百度语音交互底层能力的语音助手SIMO，其语音识别速度已经达到了500ms，在弱网和无网环境也能流畅交互。极越方面进一步表示，在未来，视频语音融合的多模态交互方案也将上车，全面提升多模态融合交互能力和用户隐私保护，并通过多合一端侧模型进一步提升语音识别准确率。2020年，以色列初创公司Hi Auto展示该公司的驾驶员语音识别商用解决方案的原型，Hi Auto表示，该方案为全球首创，可以分离驾驶员的声音，屏蔽掉车内和车外其他乘客的声音和噪音。该系统基于一个安装在设备上的深度学习软件程序，消除了仅使用音频技术无法消除的噪音，让汽车语音识别功能在任何噪音条件下都能够可靠地工作，从而进一步优化智能座舱的使用体验。2023年4月，全新升级的腾讯云智能车载语音助手对外亮相。通过打通训练平台和云端能力，语音交互功能更新周期将缩短至小时级。同时，3D数字人与语音助手联合，多方言、多语种识别等功能，也将助力车企打造更有温度、有效率、有感情的人车交互体验。目前，腾讯云智能车载语音助手已落地超过15家车企，交付超100款国内外畅销车型，累计接入车辆300多万台。

在已有语音识别技术的基础上，智能座舱语音识别存在一些主流技术。Kaldi[1]基于音素级GMM-HMM建模比对，其通过fst解码网络将序列从声学单元转换为单词。Wenet等人采用于用来解决时序类数据的分类问题的CTC模型，直接使用单词作为建模对象。噪声较大的环境中的语音识别同样具备较大的挑战性，B. Zhang[2]等人提出了一种新的基于注意力的方法来有效融合空气传导(AC)和骨传导(BC)麦克风信号，用于复数域语音增强。显著提高了噪声环境下的语音增强性能。语音增强生成对抗性网络(SEGAN)[3]提供了一个快速的增强过程，而不需要因果关系。它与原始音频端到端地发挥作用，无需手动提取声音特征。受到这些最新发展的启发，YingWei Tan[4]等人提出了两种梳理异构网络输出的方法。标量权重和基于向量的注意力权重，分别用于引导权重的分配。此外，作者端到端地训练所提出的模型。它在时域和频域都进行了优化，采用了多个损失函数来实现所需的性能。在汽车智能座舱环境中对合成数据集进行了实验。在语音质量感知评估(PESQ)、短时目标可懂度(STOI)和尺度不变源噪比(SISNR)方面，结果表明，在语音增强实验中，该框架比人造噪声数据分别提高了1.87%、8.38%和18.43%的正确率。此外，在语音识别实验中，所提出的算法在相同数据的基础上降低了3.20%的误字率。

▲ 图1 [4]中提到的异构网络输出的方法

Hanzhi GUO[5]在文章中讨论了他们在ISCSLP 2022智能驾驶舱语音识别挑战赛中进行自动语音识别工作的基本原理，并提供了详细描述。作者提出了一种基于中间CTC的损失正则化(Inter-CTC)与自适应折叠编码器的组合，也与基于TLG注意力中心的声学模型相结合。这种组合为智能驾驶舱语音识别找到了很好的解决方案，因为它可以提高准确性。与基线模型相比，轨道II(无限模型大小轨道)中模型的字符错误率(CER)下降了38.12%，以9.86%的CER位居排名期第二。对于轨道I(有限模型大小的轨道)，我们应用知识提取从无限轨道训练师生模型，结合轨道I和轨道II Kloss。Track II模型的CER比基线模型下降了40.18%，以13.39%的CER排名第三。

▲图2 [5]中所提到的工作流程与模型结构

智能座舱主流情感识别技术

汽车智能座舱是一种智能服务系统，配备智能互联的车内产品或技术，在应用场景中具有洞察、理解和满足用户需求的能力，以实现安全、高效、舒适、愉快的人机交互(HMI)体验。智能驾驶舱的开发将扩大和深化人机界面在人与车之间的范围，从而产生新的人与车交互问题，挑战安全性、舒适性和驾驶员的接受度。为了实现与驾驶员的情感互动，智能驾驶舱必须稳健地识别驾驶员的情绪。目前，驾驶员的情绪识别主要通过分析驾驶员的生理信号、面部表情、身体姿势、语音信号和其他情绪表达来实现。基于生理信号的情绪识别结果可以更真实地反映驾驶员的情绪状态，但数据采集通常需要使用侵入式传感器，驾驶环境中可能存在信号不稳定的情况。基于面部表情和身体姿势的情绪识别具有入侵性低、易于获取的优点，但其识别过程会受到光照强度和背景变化等环境因素的限制，可能会侵犯驾驶员的隐私。相比之下，驾驶员的语音信号具有易于采集、入侵性低、不易侵犯隐私的优点。

为了解决语音情感识别任务中单个特征性能较差的问题，[6]中提出了一种新的基于多个头自注意的特征融合深度卷积神经网络(MSA-NN-FF)。融合特征包括话语级声学特征和框架级特征。首先，利用CNN对帧级特征进行编码。然后，通过使用多头自注意机制来关注与情绪相关的时频区域。最后，将局部学习的特征与语音的声学特征相结合，得到最终的特征表示。在IEMOCAP数据库上进行了实验，结果表明MSA-NN-FF的有效性优于其他先进的基线网络。

▲图3 MSA-NN-FF模型的总体架构

Chen等人[7]综合语音情绪的个性化和非个性化特征，利用多个随机森林识别不同的情绪，构建了两层模糊多随机森林模型。由于深度学习能够以分层的方式表示和学习隐藏在语音中的低级情感特征，因此在语音情感识别方面引起了学者们的广泛关注。Li等人[8]开发了一种基于注意力池的深度卷积神经网络(CNN)，将语音声谱图作为模型输入，通过端到端的方法学习情绪表达。

Li Wenbo[9]等人提出了一种多特征融合的并行结构语音情感识别网络，该网络将整个语音的全局声学特征和局部频谱特征互补融合。其次，我们设计并进行了驾驶员情绪下的语音数据采集，建立了包括40名参与者的动态驾驶环境中的驾驶员语音情绪(SpeechEmo)数据集。最后，在SpeechEmo和公共数据集上对所提出的模型进行了验证，并进行了定量分析。研究发现，所提出的模型具有先进的识别性能。所提出的模型和数据集有利于未来在智能驾驶舱中实现人车情感交互，从而获得更好的驾驶员体验。

▲图4 智能座舱与人类情感互动的过程

随着智能语音助手等产品的快速普及，智能座舱可以通过驾驶员的声音识别情绪，具有广泛的应用潜力。关于跨地区、跨文化的情感识别研究，目前还没有明确的结论证明不同方言会影响识别结果。因此，在当前的研究中，已有学者[9]建立了最常用的汉语语音(普通话)数据集来提取情绪相关特征。鉴于跨地区的情感识别研究暂未取得重大突破，跨文化和不同方言的情感识别是未来亟需解决的难题。