当前位置:首页 > 智能硬件 > 机器人
[导读] 无论是在拥挤的人行道上行走,还是在社区足球联赛中射门进球,人类都会下意识地利用感知—动作循环(perception-acTIon loop)做几乎所有的事情。感知—动作循环可以使我们在一个连续的

无论是在拥挤的人行道上行走,还是在社区足球联赛中射门进球,人类都会下意识地利用感知—动作循环(perception-acTIon loop)做几乎所有的事情。感知—动作循环可以使我们在一个连续的实时循环中使用感官输入做出正确的动作,其也是 “自治系统” 的核心。

但当前一代的机器人等 “自治系统” 在直接根据视觉数据做出正确决策方面仍远远不及人类,其依然受到难以收集大量真实世界数据的限制。此外,虽然我们能轻易生成大量模拟数据,但这类数据在现实生活的各种场景中,通常不能催生安全的行为。

如何让机器人具有如人类一般的 “自治” 能力?一项来自微软研究人员的研究,让我们看到了巨大的可能性。

研究人员向我们描述了这样一种机器学习系统:它可以帮助机器人直接从相机图像中推理出正确的动作。以无人机为例,无人机可以通过模拟学习完成特定路线的导航。

通过模拟训练,机器人可以学会独立观察现实世界中的环境和条件(包括看不见的情况),然后作出正确决策,这使得机器人非常适合用于搜索和救援任务。研究人员认为,在不久的将来,这种机器学习系统可以帮助机器人更快地识别出需要帮助的人。

受人类大脑的启发,该系统将视觉信息直接映射到正确的控制动作上,也就是说,将视频帧的高维序列转换为代表真实世界状态的低维形态。根据研究人员的说法,这种方法使模型更容易解释和调试。

图 | 系统框架通过模拟学习使用多个数据模态的低维状态表征

研究人员在微软官网上的一篇博客文章中写道:“我们希望可以借助这个系统使得当前技术更加接近人类应对环境提示、适应困难条件和自主操作的能力。我们有兴趣去探索要建立一个达到人类水平的自主系统需要做些什么。”

无人机实验

在机器学习系统框架内,研究人员将感知组件(即理解所看到的东西)与控制策略(根据看到的东西决定做什么)分开。“通过将 ‘感知—行动循环’ 分为两个模块,并将多种数据模式纳入感知训练阶段,我们可以避免网络过度拟合传入数据的非相关特征。比如,尽管用于模拟和物理实验中的门的大小相同,但它们的宽度、颜色,甚至内在的相机参数却不一样。” 一位研究人员说。

该团队将机器学习框架应用在一个带有前置摄像头的小型四轴飞行器上,在只使用来自相机的图像的情况下,试图通过为无人机传授一种 AI 策略,从而使其完成特定路线的导航。

研究人员使用一个名为 AirSim 的高保真模拟器在模拟环境下训练 AI,然后将其部署到现实世界的无人机上。其中,一个关键挑战是模型必须对模拟和现实世界之间的差异(如光照、纹理)具有鲁棒性(指控制系统在一定结构 / 大小的参数摄动下维持其它某些性能的特性)。为此,研究人员使用了一个名为跨模态变量自动编码器(CM-VAE)的框架,来生成紧密弥合模拟与现实差距的表征,从而避免对无关数据的过度拟合。

在无人机实验中,一种数据模态考虑了原始无标签传感器输入(FPV 图像),而另一种数据模态描述了与当前任务直接相关的状态信息,后者对应于无人机坐标框架中定义的下一个门的相对姿势。研究人员通过扩展 CM-VAE 框架,得到了一种低维的潜在环境表征。该框架为每个数据模态使用一个编码器 - 解码器对(encoder-decoder pair),同时压缩与单个潜在空间之间的所有输入和输出(图 b)。该系统将有标记和无标记的数据模式自然地纳入潜在变量的训练过程,然后使用模仿学习训练一种深度控制策略,将潜在变量映射到无人机的速度命令中(图 a)。

图 | a. 控制系统架构。来自无人机的视频的输入图像被编码到一种潜在的环境表征中。一个控制策略作用于低维嵌入,以输出所需的机器人控制命令。b. 跨模态 VAE 架构。每个数据样本被编码成单独的潜在空间中,这个潜在空间可以被解码成图像,或者转换成另一种数据模态,比如门相对于无人机的姿态。

该系统的感知模块将输入图像压缩到上述的低维表示中,从 27,648 个变量下降到可以描述它的最基本的 10 个变量。解码后的图像提供了无人机可以看到的前方情况的描述,包括所有可能的门的大小和位置,以及其它不同的背景信息。

图 | 由跨模态表示生成的虚化图像的可视化,解码后的图像直接捕捉到门对应的背景信息

研究人员在 45 米长的带有门的 S 形轨道和 40 米长的带有不同门的圆形轨道上,分别测试了这个系统的能力。他们表示,使用 CM-VAE 的效果明显优于直接编码下一位置的端到端 AI 策略,即使背景存在 “强烈” 的视觉干扰,无人机还是通过使用跨模态感知模块成功完成了任务。

图 | 45 米长的 S 形轨道和 40 米长的圆形轨道

研究人员表示,这些结果显示了该系统在现实世界应用的 “巨大潜力”。比如,尽管存在年龄、体型、性别和种族差异,该系统可能帮助自主搜索和救援机器人更好地识别人类,从而让机器人有更好的机会识别和找回需要帮助的人。

不完美的实验

尽管无人机的实验结果着实令人兴奋。但研究人员表示,他们在实验中遇到了一个意想不到的结果,即将未标记的真实世界数据与标记的模拟数据结合起来训练表征模型,并没有提高整体性能,只使用模拟数据效果更好。

对此,他们认为,未来工作的一个有趣的方向是使用对抗性技术来降低由模拟和真实图像编码的相似场景之间的潜在空间距离,这将降低训练和测试阶段数据分布的差异。此外,研究人员设想扩展使用无标签数据进行策略学习的方法。比如,除了图像之外,是否可以结合不同的数据模式(激光测量、甚至声音)来学习如何对环境进行表征。

尽管还存在一些问题,但无人机实验的成功证明了这种方法具有应用于其他真实机器人任务的巨大潜力,其他机器人同样需要类似的能力来实现实时解释输入,并在确保安全操作的同时做出正确决策。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭
关闭