[导读]作者| BenDickson来源 |数据实战派这篇文章是我们对AI研究论文评论的一部分,这是一系列探索人工智能最新发现的文章。对于已经精通围棋、星际争霸2和其他游戏的深度强化学习模型来说,人工智能系统的主要挑战之一是它们无法将其能力泛化到训练领域之外。这种限制使得将这些系统应用到...
作者 | Ben Dickson
来源 | 数据实战派
这篇文章是我们对 AI 研究论文评论的一部分,这是一系列探索人工智能最新发现的文章。
对于已经精通围棋、星际争霸 2 和其他游戏的深度强化学习模型来说,人工智能系统的主要挑战之一是它们无法将其能力泛化到训练领域之外。这种限制使得将这些系统应用到现实世界中变得非常困难,在现实世界中,情况比训练 AI 模型的环境复杂得多且不可预测。
最近,DeepMind 人工智能研究实验室的科学家根据一篇新的“开放式学习”倡议的博客文章中,声称已经采取了“初步来训练一个能够在不需要人类交互数据的情况下,玩许多不同游戏的代理”。他们的新项目包括一个具有真实动态的 3D 环境和可以学习解决各种挑战的深度强化学习代理。
根据 DeepMind 的人工智能研究人员的说法,新系统是“创建更通用的代理迈出的重要一步,该代理具有在不断变化的环境中快速适应的灵活性。”
该论文的发现表明,在将强化学习应用于复杂问题方面取得了一些令人印象深刻的进步。但它们也提醒人们,当前的系统距离实现人工智能社区几十年来直梦寐以求的通用智能能力还有多远。
深度强化学习的脆弱性
强化学习的主要优势在于可以在执行动作和获得反馈来发展行为的能力,类似于人类和动物通过与环境互动来学习的方式类似。一些科学家将强化学习描述为“首个智能计算理论”。
强化学习和深度神经网络的结合,称为深度强化学习,是包括 DeepMind 著名的 AlphaGo 和 AlphaStar 模型在内的许多强化 AI 的核心。在这两种情况下,人工智能系统都能够在各自的比赛中击败人类世界冠军。
但强化学习系统的灵活性不足也是众所周知的缺陷。例如,可以在专家级别玩星际争霸 2 的强化学习模型将无法在任何能力级别玩具有类似机制的游戏(例如,魔兽争霸 3)。即使对原始游戏稍有改动,也会大大降低 AI 模型的性能。
“这些智能体通常被限制只能玩他们接受过训练的游戏,虽然游戏的布局、初始条件、对手可能会变化,智能体必须满足的目标在训练和测试之间保持不变。偏离这一点可能会导致代理的灾难性失败,”DeepMind 的研究人员在一篇论文中写道,该论文提供了有关其开放式学习的全部细节。另一方面,人类非常擅长跨领域转移知识。
XLand 环境
DeepMind 新项目的目标是创建“一个人工智能,其行为的概括超出了它所训练的游戏集。”
为此,该团队创建了 XLand,这是一个可以生成由静态拓扑和可移动对象组成的 3D 环境的引擎。游戏引擎模拟了刚体物理学,并允许玩家以各种方式使用对象(例如,创建斜坡、块路径等)。
XLand 是一个丰富的环境,可以在其中训练代理执行几乎无限数量的任务。XLand 的主要优势之一是能够使用程序化规则自动生成大量环境和挑战来训练 AI 代理。这解决了机器学习系统的主要挑战之一,该系统通常需要大量手动策划的训练数据。
根据博客文章,研究人员“在 XLand 中创建了数十亿个任务,跨越不同的游戏、世界和玩家。”这些游戏包括非常简单的目标,例如在更复杂的设置中寻找对象,其中 AI 代理会权衡不同奖励的收益和权衡。一些游戏包括涉及多个代理的合作或竞争元素。
深度强化学习
DeepMind 使用深度强化学习和一些聪明的技巧来创建可以在 XLand 环境中茁壮成长的 AI 代理。
每个代理的强化学习模型接收世界的第一人称视角、代理的物理状态(例如,是否持有对象)及其当前目标。每个代理微调其策略神经网络的参数,以最大限度地提高当前任务的回报。神经网络架构包含一个注意力机制,以确保代理可以平衡完成主要目标所需的子目标的优化。
一旦代理掌握了当前的挑战,计算任务生成器就会为代理创建一个新的挑战。每个新任务都是根据代理的训练历史生成的,并有助于在各种挑战中分配代理的技能。
DeepMind 还使用其庞大的计算资源对大量代理进行并行培训,并在不同的代理之间传输学习参数,以提高强化学习系统的一般能力。
DEEPMind使用多步骤和基于人群的机制来培训许多强化学习代理
强化学习代理的性能是根据它们完成未经训练的各种任务的一般能力来评估的。一些测试任务包括众所周知的挑战,例如“夺旗”和“捉迷藏”。
根据 DeepMind 的说法,每个代理在 XLand 的 4,000 个独特世界中玩了大约 700,000 个独特的游戏,并在 340 万个独特任务中经历了 2000 亿个训练步骤(在论文中,研究人员写道,1 亿个步骤相当于大约 30 分钟的训练) .
AI 研究人员写道:“此时,我们的代理已经能够参与每一个程序生成的评估任务,除了少数甚至对人类来说都是不可能的。” “而且我们看到的结果清楚地展示了整个任务空间的一般零样本行为。”
零样本机器学习模型可以解决训练数据集中不存在的问题。在 XLand 等复杂空间中,零样本学习可能意味着代理已经获得了有关其环境的基本知识,而不是记住特定任务和环境中的图像帧序列。
当研究人员试图为新任务调整它们时,强化学习代理进一步表现出广义学习的迹象。根据他们的发现,对新任务进行 30 分钟的微调,足以在使用新方法训练的强化学习代理中产生令人印象深刻的改进。相比之下,在相同时间内从头开始训练的代理在大多数任务上的性能接近于零。
高级行为
根据 DeepMind 的说法,强化学习代理表现出“启发式行为”的出现,例如工具使用、团队合作和多步计划。如果得到证实,这可能是一个重要的里程碑。深度学习系统经常因学习统计相关性而不是因果关系而受到批评。如果神经网络能够开发出高级概念,例如使用对象来创建斜坡或导致遮挡,它可能会对机器人和自动驾驶汽车等领域产生重大影响,而这些领域目前深度学习正在苦苦挣扎。
但这些都是重要的假设,DeepMind 的研究人员对就他们的发现得出结论持谨慎态度。他们在博文中写道:“鉴于环境的性质,很难确定意图——我们看到的行为经常看起来是偶然的,但我们仍然看到它们始终如一地发生。”
但是他们相信他们的强化学习代理“了解他们身体的基本知识和时间的流逝,并且他们了解他们遇到的游戏的高级结构。”
这种基本的自学技能是人工智能社区备受追捧的另一个目标。
智力理论
DeepMind 的一些顶尖科学家最近发表了一篇论文,其中他们假设单一奖励和强化学习足以最终实现通用人工智能 (AGI)。科学家们认为,一个具有正确激励机制的智能代理可以开发各种能力,例如感知和自然语言理解。
尽管 DeepMind 的新方法仍然需要在多个工程奖励上训练强化学习代理,但这符合他们通过强化学习实现 AGI 的一般观点。
Pathmind 的首席执行官 Chris Nicholson 告诉 TechTalks:“DeepMind 在这篇论文中表明,单个 RL 代理可以开发智能以实现多个目标,而不仅仅是一个目标,” “它在完成一件事时学到的技能可以推广到其他目标。这与人类智能的应用方式非常相似。例如,我们学习抓取和操纵物体,这是实现从敲锤子到铺床的目标的基础。”
Nicholson 还认为,该论文发现的其他方面暗示了通向智能的进展。“家长们会认识到,开放式探索正是他们的孩子学会在世界中穿行的方式。他们从柜子里拿出一些东西,然后把它放回去。他们发明了自己的小目标——这对成年人来说可能毫无意义——然后他们掌握了这些目标,”他说。“DeepMind 正在以编程方式为其代理在这个世界上设定目标,而这些代理正在学习如何一一掌握它们。”
Nicholson 说,强化学习代理也显示出在他们自己的虚拟世界中开发具身智能的迹象,就像人类一样。“这又一次表明,人们学习穿越和操纵的丰富而可塑的环境有利于通用智能的出现,智能的生物学和物理类比可以指导人工智能的进一步工作,”他说。
南加州大学计算机科学副教授 Sathyanaraya Raghavachary 对 DeepMind 论文中的主张持怀疑态度,尤其是关于本体感觉、时间意识以及对目标和环境的高级理解的结论。
“即使我们人类也没有完全意识到我们的身体,更不用说那些 VR 代理了,” Raghavachary 在对 TechTalks 的评论中说,并补充说,对身体的感知需要一个集成的大脑,该大脑被共同设计以实现合适的身体意识和空间位置。“与时间的流逝一样——这也需要一个对过去有记忆的大脑,以及与过去相关的时间感。他们(论文作者)的意思可能与代理跟踪由他们的行为(例如,由于移动紫色金字塔)导致的环境中的渐进变化,底层物理模拟器将产生的状态变化有关。
Raghavachary 还指出,如果代理能够理解他们任务的高层结构,他们就不需要 2000 亿步的模拟训练来达到最佳结果。
“底层架构缺乏实现他们在结论中指出的这三件事(身体意识、时间流逝、理解高级任务结构)所需的东西,”他说。“总的来说,XLand 只是‘大同小异’。”
模拟与现实世界的差距
简而言之,这篇论文证明,如果你能够创建一个足够复杂的环境,设计正确的强化学习架构,并让你的模型获得足够的经验(并且有很多钱可以花在计算资源上),你将能够泛化到同一环境中的各种任务。这基本上就是自然进化赋予人类和动物智能的方式。
事实上,DeepMind 已经对 AlphaZero 做了类似的事情,AlphaZero 是一种强化学习模型,能够掌握多个两人回合制游戏。XLand 实验通过添加零样本学习元素将相同的概念扩展到更高的水平。
但是,虽然我认为 XLand 训练的代理的经验最终会转移到现实世界的应用中,例如机器人和自动驾驶汽车,但我认为这不会是一个突破。您仍然需要做出妥协(例如创建人为限制以降低现实世界的复杂性)或创建人为增强(例如将先验知识或额外传感器注入机器学习模型)。
DeepMind 的强化学习代理可能已经成为虚拟 XLand 的主人。但是他们的模拟世界甚至没有真实世界的一小部分复杂性。在很长一段时间内,这种差距仍将是一个挑战。
参考链接:
https://bdtechtalks.com/2021/08/02/deepmind-xland-deep-reinforcement-learning/
本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。
关键字:
阿维塔
塞力斯
华为
加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...
关键字:
AWS
AN
BSP
数字化
伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...
关键字:
汽车
人工智能
智能驱动
BSP
北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...
关键字:
亚马逊
解密
控制平面
BSP
8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。
关键字:
腾讯
编码器
CPU
8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。
关键字:
华为
12nm
EDA
半导体
8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。
关键字:
华为
12nm
手机
卫星通信
要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...
关键字:
通信
BSP
电信运营商
数字经济
北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...
关键字:
VI
传输协议
音频
BSP
北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...
关键字:
BSP
信息技术
山海路引 岚悦新程 三亚2024年8月27日 /美通社/ -- 近日,海南地区六家凯悦系酒店与中国高端新能源车企岚图汽车(VOYAH)正式达成战略合作协议。这一合作标志着两大品牌在高端出行体验和环保理念上的深度融合,将...
关键字:
新能源
BSP
PLAYER
ASIA
上海2024年8月28日 /美通社/ -- 8月26日至8月28日,AHN LAN安岚与股神巴菲特的孙女妮可•巴菲特共同开启了一场自然和艺术的疗愈之旅。 妮可·巴菲特在疗愈之旅活动现场合影 ...
关键字:
MIDDOT
BSP
LAN
SPI
8月29日消息,近日,华为董事、质量流程IT总裁陶景文在中国国际大数据产业博览会开幕式上表示,中国科技企业不应怕美国对其封锁。
关键字:
华为
12nm
EDA
半导体
上海2024年8月26日 /美通社/ -- 近日,全球领先的消费者研究与零售监测公司尼尔森IQ(NielsenIQ)迎来进入中国市场四十周年的重要里程碑,正式翻开在华发展新篇章。自改革开放以来,中国市场不断展现出前所未有...
关键字:
BSP
NI
SE
TRACE
上海2024年8月26日 /美通社/ -- 第二十二届跨盈年度B2B营销高管峰会(CC2025)将于2025年1月15-17日在上海举办,本次峰会早鸟票注册通道开启,截止时间10月11日。 了解更多会议信息:cc.co...
关键字:
BSP
COM
AI
INDEX
上海2024年8月26日 /美通社/ -- 今日,高端全合成润滑油品牌美孚1号携手品牌体验官周冠宇,开启全新旅程,助力广大车主通过驾驶去探索更广阔的世界。在全新发布的品牌视频中,周冠宇及不同背景的消费者表达了对驾驶的热爱...
关键字:
BSP
汽车制造
此次发布标志着Cision首次为亚太市场量身定制全方位的媒体监测服务。 芝加哥2024年8月27日 /美通社/ -- 消费者和媒体情报、互动及传播解决方案的全球领导者Cis...
关键字:
CIS
IO
SI
BSP
上海2024年8月27日 /美通社/ -- 近来,具有强大学习、理解和多模态处理能力的大模型迅猛发展,正在给人类的生产、生活带来革命性的变化。在这一变革浪潮中,物联网成为了大模型技术发挥作用的重要阵地。 作为全球领先的...
关键字:
模型
移远通信
BSP
高通
北京2024年8月27日 /美通社/ -- 高途教育科技公司(纽约证券交易所股票代码:GOTU)("高途"或"公司"),一家技术驱动的在线直播大班培训机构,今日发布截至2024年6月30日第二季度未经审计财务报告。 2...
关键字:
BSP
电话会议
COM
TE
8月26日消息,华为公司最近正式启动了“华为AI百校计划”,向国内高校提供基于昇腾云服务的AI计算资源。
关键字:
华为
12nm
EDA
半导体