揭秘生成式人工智能如何重塑视频会议体验

[导读]人工智能将大大提升视频会议的互动性和沉浸感,为集成商和系统设计师们带来全新的机遇。

据Hailo首席技术官Avi Baum先生介绍,人工智能将大大提升视频会议的互动性和沉浸感,为集成商和系统设计师们带来全新的机遇。

揭秘生成式人工智能如何重塑视频会议体验

尽管虚拟会议已经广泛普及并成为主流方式,但现有技术尚无法全面复刻面对面交流所带来的体验。与此同时,生成式人工智能技术的飞速发展,为破解混合会议长期以来面临的诸多挑战提供了创新性解决方案。

生成式人工智能无疑将大大提升虚拟会议的效率和吸引力,使其能够高度模拟现实生活中的交流体验。然而,要实现这一愿景,这些前沿功能须在实时环境中运作,确保最低延迟,同时保持成本效益,让各类用户都能负担得起。这迫切要求部分创新的人工智能特性能够被无缝集成到各类连接终端设备中,以提供出色的用户体验。

幸运的是,解决方案供应商正在迅速将生成式人工智能融入到主流视频会议平台和计算机中,以实现实时优化、沉浸式虚拟体验增强以及高效的自动化会议管理。这一系列创新举措不仅推动了技术边界的拓展,而且能够显著提升客户在混合及虚拟会议场景中的体验。

虚拟复刻

生成式人工智能以出色的性能,优化了虚拟会议中的视频、音频及文本交互体验。特别是在混合会议场景中,人工智能驱动的智能视频处理技术能够智能调整视角,让远程参与者得以聚焦于发言人的实时画面,从而精准复制出面对面交流的体验,摒弃了以往单调的、仅限于展示整个会议室静态场景的局限。

神经辐射场(NeRF)或类似技术能够创造远程参与者的生动视图,赋予每一位参与者沉浸式的体验享受,同时实现视角的动态变换。随后,借助人工智能,这些多元视角被巧妙地融合成统一的视图,以统一的大小、姿势或风格显示。此外,如果会议室中有白板,人工智能可以自动识别并将其上的文字转换为可编辑格式,甚至可以创建专属会议记录,提升会议效率。

生成式人工智能可以深度融入每位参与者的工作流程,无论是身处虚拟空间还是现实会议室,它都能通过先进的音频与文本处理能力提升工作效率。这一智能助手可以将音频转换为文本,以创建会议摘要,根据指示将任务分配给相应负责人,甚至即时提供相关建议。对于多语言交流环境,此类助手还能提供即时音频翻译,从而消除语言障碍。

然而,尽管生成式人工智能展现出令人瞩目的潜力,其当前实现形式仍受限于底层技术的发展水平。要全面释放其力量,单纯依赖现有的云服务架构已难以满足需求,而是需要一种更为普及的解决方案,确保在任何情境下都能轻松激活并享受其带来的变革性体验。

面向未来的可拓展性

为了使生成式人工智能在视频会议中发挥最大效用,视频会议系统应具备在终端设备上自主执行生成式人工智能处理的能力,无论这些设备是个人电脑还是会议网关,都无需依赖云端进行处理。

在会议系统中,可扩展性是一个至关重要的特性。就可扩展性而言,识别哪些场景适合采用集中处理,以及哪些情况需要边缘处理,这一点显得尤为重要。

集中处理在以下三种情况下尤为有利:

• 时间共享:当功能需求较为简单,且中心机器能够以一小部分容量轻松应对时(例如,处理参与者进入房间或取消静音时的提醒),中心机器便能够为所有终端提供服务。在此情况下,每个终端在不同时间段内运行,且不会对系统造成明显影响。

• 资源共享:当功能包含所有终端共有的固有处理需求时(例如,在共享数据库上进行搜索),可以执行一次共享处理,并为多个或所有终端重复使用。

• 信息共享:当所有参与者需要共享相同信息时(例如,没有个人注释的共享白板),可以实现信息的共享。

前文所述的大部分功能并不符合上述三种情况。为了构建一个可扩展的视频会议系统,并使这些功能对所有参与者都可用,我们需要为不同的节点配备适当的人工智能计算能力。

揭秘生成式人工智能如何重塑视频会议体验

这将带来多重益处,包括:

• 低延迟:在虚拟会议中,低延迟对于实现顺畅的交流至关重要,无论是实时翻译、内容创建还是视频调整。通过在边缘设备上利用生成式人工智能,可以有效减少延迟,确保会议流畅进行,同时为用户提供无缝衔接的体验,无需任何等待时间。

• 节约成本:基于云的生成式人工智能工具的月度订阅费用,对许多企业而言可能构成不小的负担。随着满足多样化用户需求(如聊天、搜索引擎、图像/视频创建)的工具不断涌现,成本迅速攀升,这无疑进一步加剧了企业的预算压力。因此,将生成式人工智能迁移到用户的个人电脑或会议设备上,使用户无需承担月度订阅费用即可享有这些工具,无疑提供了一个更为经济的解决方案。

• 宽带和连接性:带宽和连接性是虚拟会议中常见的问题,尤其是在参与者网络连接受限的情况下,如旅途中或偏远地区。而基于边缘的生成式人工智能能够在本地处理无关信息,确保仅传输相关且重要的数据,从而实现不间断且高效的会议体验。

• 环境影响:基于云的人工智能处理对环境造成的影响不容忽视,其过程中会消耗大量能源并产生污染。卡内基梅隆大学和Hugging Face的研究人员对不同机器学习任务的碳足迹进行了测量。研究结果表明,涉及新内容生成的人工智能任务,如文本生成、摘要、图像描述和图像生成等,是非常耗能的。研究还发现,耗能的人工智能模型每次会话会产生近1600克二氧化碳,其环境影响相当于驾驶汽油车行驶约6.4公里。

相比之下,边缘设备为生成式人工智能提供了一种更可持续的选择。它们消耗更少的电力,减少了冷却需求,并降低了碳足迹,从而有助于实现更绿色、更环保的人工智能会议方式。

融入人工智能

在不远的将来,音视频系统集成商与设计师将安装专为生成式人工智能时代设计的视频会议系统,既能享受生成式人工智能所带来的便利,同时亦能确保边缘处理在性能、可靠性和安全性方面的优势。

这些未来的视频会议系统将在边缘设备上直接处理人工智能任务,需要构建闭环系统来分担目前云端处理的部分工作。通过在笔记本电脑、会议室设备及摄像头等终端上处理人工智能数据,可以确保会议的顺畅运行,并有效控制成本,同时使人工智能生成的内容(例如自动摘要或动态演示文稿)更加安全可靠。

Hailo提供的人工智能处理器是专为高效处理人工智能模型而设计的,以适配各种边缘设备,同时以合理的价格提供数据中心级的性能表现。目前,该公司正与会议设备制造商展开合作,致力于将人工智能处理器集成至其硬件之中,共同推动未来的视频会议系统成为现实。