拐点已至,英伟达助力机器人从探索期迈入快速发展期
扫描二维码
随时随地手机看文章
高质量数据的生成、仿真到现实的迁移(Sim2Real),是人形机器人发展的瓶颈所在。特斯拉设置了高时薪的机器人数据搜集职位,采用黑白两班倒的方式,只为了能够快速帮助Optimus机器人实现高质量数据收集。而来自谷歌和特斯拉的数据显示,采集到13万条机器人的数据,花费了整整17个月、16名工程师和13台机器人。即便如此,获取的数据量依然有限,而每一项数据采集的成本和时间投入都异常庞大。特斯拉的设备,包括内部系统和整个数据采集流程,成本高达百万。这一现状表明,单纯依赖真实世界的数据驱动来推动人形机器人的发展,短期内难以实现具身智能的突破。因此,如何突破这一瓶颈,成为了行业亟待解决的问题。
而英伟达推出的“三计算机”解决方案,成功为具身智能提供了高效的开发环境,加速了这一技术的落地。像英伟达的Omniverse平台使得开发者能够更便捷地进行模拟和调试,推动了从理论到实践的转变。这一进展,无疑是具身智能迎来拐点的标志。
“这一进展令人无比激动。一年前,这一方向是否能成功还并不明朗。虽然之前已经有不少努力,但过去6到12个月的突破性发展改变了一切。”NVIDIA 机器人与边缘计算副总裁 Deepu Talla在近日CES结束后,马不停蹄来到了北京,和记者进行了机器人主题方面的深入分享,介绍了英伟达在物理AI方面的重大进展。
机器人领域的“突破性”进展
机器人技术的应用场景正在变得越来越广泛,社会和经济因素使得这一技术的需求变得愈加迫切。Deepu将其总结为三个方面:首先,危险的工作:比如矿工或在危险环境中工作的人员,机器人可以替代人类承担这些危险任务。其次,劳动力短缺:随着社会的不断变化,劳动力短缺问题愈发严重,机器人可以填补这一空缺。最后,养老需求:随着人类寿命的延长,越来越多的老年人需要护理和陪伴,机器人能够为社会提供这样的解决方案。
虽然这些推动因素由来已久,但从2024年至今,我们可以看到对机器人技术的兴趣和投资有了大幅增长。为什么是现在?这得益于两方面的技术突破性进展。
1-生成式AI打破了数字应用和物理应用的界限
大约两年前,大型语言模型(LLMs)彻底改变了数字应用领域,为自然语言处理、文本生成等技术带来了巨大的飞跃。如今,生成式AI的技术不仅在数字领域内取得了突破,它们开始广泛应用于机器人技术领域,打破了数字应用与物理应用之间的隔阂。这一进展使机器人不仅能够在模拟环境中完成任务,还能更有效地与真实世界进行交互和适应。生成式AI为机器人的自主决策和学习能力提供了更强大的支持,这为机器人进入更复杂的应用场景提供了可能。
2-机器人仿真环境的进步提高了开发效率
制造机器人通常非常昂贵,尤其是在没有大规模量产的情况下。高昂的硬件成本和物理世界中的真实测试限制了机器人技术的进步。过去,机器人技术的开发大多依赖于实际物理环境中的测试,而这种方式不仅费时且成本高昂,进展往往很慢。与之相对,仿真技术的进步为机器人开发提供了新的方向。通过高效的虚拟仿真环境,开发者可以在模拟环境中反复测试和优化机器人的行为,极大地降低了测试的时间和成本。尤其是像英伟达的Omniverse平台等仿真环境的出现,使得机器人开发的速度和精度得到了显著提高。
Deepu表示,很多公司都已经开始专注于推动机器人领域的发展,他们都在研究与机器人相关的问题、以及通用型机器人“大脑”模型的开发。“接下来的5到10年里,我们将在机器人领域看到显著的差异。”Deepu说到,“这就是未来——一个能够帮助解决危险工作、劳动力短缺以及企业运营挑战的未来。”
“三计算机”解决方案,闭环机器人开发到部署
当谈到机器人技术时,很多人可能仅仅关注于具备物理形态的机器人本体。但其实仅仅靠机器人中的“计算机”是不够的,我们还需要大量的训练和仿真,这背后同样离不开关键硬件和软件环境的支持。英伟达提出了其著名的“三计算机方案”,通过三计算机的整合来加速机器人的开发部署。
第一台计算机:用于训练这台计算机负责训练机器人所需的人工智能模型。通常,训练过程在云端、数据中心,或者像NVIDIA DGX这样的高性能计算平台上进行。训练是构建机器人“大脑”的关键步骤,它为机器人赋予理解和决策的能力。
第二台计算机:用于仿真训练完成后,机器人需要经历严格的测试。传统的测试方式依赖于物理环境,虽然可行,但这种方式通常费时费力且成本高昂。英伟达提出了通过引入“仿真层”来解决这一问题,即利用数字孪生技术在虚拟环境中进行大规模的测试和优化。通过Omniverse中的仿真环境,开发者可以在无需受到现实世界物理限制的情况下,快速测试和调整机器人的行为,从而大幅提高开发效率。
第三台计算机:用于部署最后,第三台计算机就是机器人操作系统的核心,它直接安装在机器人内部,负责执行机器人操作。英伟达的Jetson和AGX系统便是典型的代表,它们提供了一个强大的计算平台,将经过训练和仿真优化的模型应用到实际的机器人操作中。
通过这三台计算机的紧密合作,机器人开发的时间可以显著缩短。在部署到实际环境之前,开发团队可以在仿真环境中进行数千次的测试和优化,确保机器人的性能和安全性。如果某个设计在实际操作中出现问题,开发者可以迅速回到仿真环境进行调整,重新测试,从而加速整个开发过程。
英伟达虽然并不直接开发机器人,但构建了这样一个包含三种计算系统以及相关软件工具和工作流程的平台,帮助机器人专家、研究人员、机械工程师和测试人员更轻松地开发机器人解决方案。
“这种方法也解释了为什么机器人技术比自动驾驶更难。对于自动驾驶来说,主要是避免障碍并确保安全,而无需与物理物体交互。而在机器人领域,涉及到的是与物体的接触、碰撞和复杂的物理交互,这些都更难测试和优化。”Deepu解释到。
“这种数据采集比自动驾驶数据采集要困难得多。”银河智能通用创始人、CTO王鹤博士也分享到,“开车是刚需,将车售卖给用户后,用户会自愿为你驾驶。公司数据采集的成本可以是负数。但没有任何一家人形机器人公司能为用户付费采集数据,,且人形机器人数据采集难复制,只能冷启动,这是行业瓶颈。人形机器人,若没有功能,就没有人会购买,哪怕买了,也没有人愿意遥控采集数据。人形机器人只能冷启动,这是全球人形机器人公司面临的瓶颈问题。”
高质量合成数据,缩小Sim2Real的差距
ChatGPT这样的大语言模型所需的训练数据,来自互联网上的海量信息和使用者的实时交互。这些数据的获取要容易得多,因此只要计算的Scaling Law跟得上,大模型就可以不断进化、跃升。而反观物理AI,尤其是机器人领域,机器人需要的是执行动作,比如拾取物体、移动、交互或完成任务等,这些高质量数据的大规模获取非常困难。
据Deepu介绍,与自动驾驶汽车可以依赖现有车辆通过传感器收集数据不同,目前机器人的数量还远远不足以产生可比的数据量。当前的业界常用的方法包括使用VR设备(例如Apple Vision Pro)或动作捕捉套装来记录人类动作的示范。这些方法虽能提供有用的数据,但规模太小,无法完全满足机器人模型的训练需求。
为了解决这一问题,“合成数据生成”变得至关重要。通过合成数据,机器人开发者便可以生成特定动作(例如抓取物体)的无数种变化,或者构建完整的虚拟环境。NVIDIA Cosmos是一个创新的“世界基础模型”,旨在为机器人训练提供虚拟环境。与传统的地球或自然环境不同,这里的“世界”指的是机器人操作的具体交互空间,比如一个房间内的可见区域。通过生成高度逼真、类似视频游戏的虚拟环境,NVIDIA Cosmos为机器人提供了一个可供模拟和优化行为的广阔平台。这个平台让开发者能够在虚拟环境中反复测试机器人,帮助提高训练效率并降低成本,同时避免了现实世界中可能遇到的时间和空间限制。
通过将有限的现实世界数据与NVIDIA Cosmos生成的大规模合成数据相结合,机器人技术中数据稀缺的难题得到了有效解决。这种创新的工作流已经开始实施。这一方法不仅能够解决当前机器人领域面临的基础数据问题,还为机器人的训练和优化提供了更加高效和可持续的路径。
“没有足够的数据,机器人模型无法进行有效的训练、测试或部署。这使得数据的收集和生成成为解决机器人开发挑战的关键第一步。”Deepu分享到,“通过采用这种结合现实与合成数据的创新工作流,我们正为机器人领域的重大进步铺平道路。”
作为世界基础模型,Cosmos提供了更高质量的合成数据;GR00T平台进而得以将这些数据集成并支持测试,Isaac Sim则为机器人提供了可以进行任务模拟、策略测试和训练的仿真平台,而Omniverse通过数字孪生技术,创建出了高度逼真的虚拟世界,模拟现实世界中的物理交互和环境变化。所有的这些工具通过紧密配合,正在加速推动机器人技术从训练到实际应用的进展。
具身智能,迎来了自己的通用基础大模型
有了Omniverse和Cosmos提供的强大虚拟环境和数据生成技术,高质量的合成数据的规模化产生不再困难。依托Isaac这样的仿真测试平台,通用具身大模型的发展也进一步开始提速,开始追求属于自己的scaling law曲线。
银河通用在2003年便开始敏锐捕捉到了这一机遇,开始了与英伟达的密切合作,积极探索使用仿真器合成大量的机器人操作数据,并将其转化为机器人的模型。目前,银河通用已经发布了其端到端具身抓取基础大模型 GraspVLA。
据王鹤博士介绍,在此过程中,仿真器和渲染引擎发挥关键作用,开发团队需要检查合成的场景在物理层面是否正确。如果场景正确,就可以使用并行渲染器将数据渲染出来,并将机器人训练的数据存储下来,最终得到以10亿计的海量合成数据。
基于着10亿的合成数据,银河通用完成了全球首个、也是全球最大的机器人基础模型—— GraspVLA。该模型具有显著的特性,满足七大泛化“金标准”:光照泛化、背景泛化、平面位置泛化、空间高度泛化、动作策略泛化、动态干扰泛化和物体类别泛化。该模型能够根据输入的语言指令,直接针对特定任务进行操作,例如抓取物品。不论是环境中的光照、纹理、物体位置如何变化,机械臂都能够准确地完成指定物品的抓取。
在面对特殊的新需求时,这个基础大模型展现出强大的泛化能力。尽管GraspVLA具备泛化的抓取能力,但在处理大量项目时,如一箱水,模型会随便抓取其中一个物体。如果采集少量数据,例如200条数据,模型就能学会如何抓取特定物体。例如,针对东方树叶包装采集200条数据后,模型能适用于其他品牌的类似任务。即便对于特殊零件的抓取任务,只需采集100条数据并掌握零件名称,模型也能实现抓取。
在家庭场景中,针对机器人对物体的特定抓取行为偏好,例如抓取杯子时不碰到杯壁,机器人通过少量数据训练,也能够适应这些特定需求。
这种偏好设定对机器人的应用至关重要。王鹤博士表示,如果现有的大模型应用仍需大量数据(几千条甚至几万条)才能理解用户的偏好并融入其中,机器人应用将面临困难。基于10亿规模合成大数据训练的 GraspVLA模型,仅需100条偏好数据的学习,就能迅速满足企业的需求,减少数据采集时间和成本。基础大模型能够快速理解产品的应用需求,并在同类物体上进行泛化。例如,在零售店,模型通过100条数据即可理解如何操作不同类型的物体,极大地压缩了数据采集和部署时间。
以灵巧抓取为例,借助10亿级别的零售数据,机器人在抓取任务中展现出了超过90%的成功率,这一成果得益于高效的数据处理和精准的任务执行。值得注意的是,英伟达的Isaac平台在这一进展中发挥了至关重要的作用。银河通用将GraspVLA模型与宇树的四足机器人相结合,在本地的Isaac中进行了大规模的全身控制学习,从而让机器人实现了自主运行,能够完成各种自主任务,例如针对垃圾的精准识别并捡起。得益于英伟达强大的仿真平台和数据处理能力,机器人能够做到完全不依赖真实数据就实现自主任务训练,特别是在灵活调整不同材质、形状、地形、高度和颜色的任务方面,机器人能够在不同场景中进行高效的泛化应用。
具身智能应用提速,真正人形机器人迎来爆发
据悉,GraspVLA只是银河通用的第一步,它展现了通过合成大数据训练出的抓取能力。而银河通用将快速基于在抓取合成数据生成、训练和仿真部署方面的经验,把应用从抓取扩展到放置、开柜子、开抽屉,以及处理柔性物体如叠衣服、挂衣服等等等技能。通过多技能、更大规模的数据合成,银河通用有望实现更丰富的技能覆盖,比如移动操作和双臂操作等。王鹤展望,将在 2025 年上半年向业界展示真正的人形机器人相关成果。
英伟达的Cosmos世界基础模型真正解决了高质量合成数据的难题,而Isaac GR00T和Mega这两个在CES上最新发布的Blueprint,也进一步缩小了机器人Sim2Real的差距。当高质量的数据、真实的仿真环境这些痛点都得以突破之后,一个真正的人形机器人通用基础大模型正在酝酿成型。而英伟达也将如其在LLM中发挥的价值一般,继续在具身智能的物理AI时代,扮演着重要的基础设施支持者的角色,赋能具身智能高速发展。