当前位置:首页 > 智能硬件 > 机器人
[导读] 麻省理工学院(MIT)的研究人员开发了一种配备了人工智能的机器人,该机器人可以在棘手的在线多人游戏中击败人类玩家,而其中的玩家角色和动机却被保密。 已经建立了许多游戏机器人来跟

麻省理工学院(MIT)的研究人员开发了一种配备了人工智能的机器人,该机器人可以在棘手的在线多人游戏中击败人类玩家,而其中的玩家角色和动机却被保密。

已经建立了许多游戏机器人来跟上人类玩家的步伐。今年早些时候,卡内基梅隆大学的一个团队开发了世界上第一个可以击败多人扑克专业人士的机器人。DeepMind的AlphaGo在2016年成为头条新闻,以击败专业的Go玩家。还建立了一些机器人来击败专业的国际象棋玩家或联合起来合作合作游戏,例如在线夺旗。但是,在这些游戏中,机器人从一开始就了解其对手和队友。

在下个月的神经信息处理系统大会上,研究人员将展示DeepRole,这是第一个可以赢得在线多人游戏的游戏机器人,参与者最初对团队的忠诚度尚不清楚。该机器人的设计是将新颖的“演绎推理”添加到通常用于玩扑克的AI算法中。这有助于其推理出部分可观察的动作,从而确定给定玩家是队友或对手的可能性。通过这样做,它可以快速了解与谁结盟以及采取哪些行动来确保其团队的胜利。

研究人员在超过4,000轮在线游戏“抵抗:阿瓦隆”中将DeepRole与人类玩家进行比较。在该游戏中,玩家尝试随着游戏的进行推断出同龄人的秘密角色,同时隐藏自己的角色。作为队友和对手,DeepRole始终优于人类选手。

“如果用机器人代替人类的队友,则可以期望团队获得更高的获胜率。机器人是更好的合作伙伴。”第一作者杰克·塞里诺(Jack Serrino ‘18)说,他是麻省理工学院电气工程和计算机科学专业的学生,是狂热的在线“阿瓦隆”玩家。

这项工作是一个更广泛的项目的一部分,该项目旨在更好地模拟人类如何做出具有社会根据的决定。这样做可以帮助构建更好地理解,学习人类并与人类合作的机器人。

“人类向他人学习并与他人合作,这使我们能够共同实现我们一个人无法独自完成的事情,”合著者马克斯·克莱曼·韦纳(Max Kleiman-Weiner)说,他是大脑,思维与机器中心和美国国防部的博士后。麻省理工学院和哈佛大学的脑与认知科学。“像“阿瓦隆”这样的游戏可以更好地模仿人类在日常生活中所经历的动态社交环境。无论是在幼儿园的第一天还是在办公室的第二天,您都必须弄清楚谁在团队中并会与您一起工作。”

哈佛大学的David C.Parkes和计算机认知科学教授,麻省理工学院计算机科学与人工智能实验室以及脑,思维和机器中心的成员Joshua B.Tenenbaum和Serrino和Kleiman-Weiner一起加入了本文。

演绎机器人

在“阿瓦隆”中,随机将三名球员秘密分配给“抵抗”队,将两名球员随机分配给“间谍”队。两名间谍玩家都知道所有玩家的角色。在每个回合中,一个玩家提议一个由两个或三个玩家组成的子集来执行任务。所有参与者同时并公开投票批准或拒绝该子集。如果获得多数同意,则子集会秘密确定任务是成功还是失败。如果选择两个“成功”,则任务成功。如果选择一个“失败”,则任务失败。反抗玩家必须始终选择成功,但间谍玩家可以选择任一个结果。抵抗队在成功完成三个任务后获胜;在执行了三个失败的任务后,间谍团队获胜。

赢得游戏基本上归结为推论谁是反抗或间谍,然后投票给您的合作者。但这实际上比下棋和扑克更加复杂。Kleiman-Weiner说:“这是一个信息不完善的游戏。” “您甚至不确定一开始就反对谁,因此还有一个发现阶段,寻找与谁合作。”

DeepRole使用一种称为“反事实后悔最小化”(CFR)的游戏计划算法-通过反复与自己对战来学习游戏-并增加了演绎推理。在游戏的每个点上,CFR都会前瞻性地创建由线和节点组成的决策“游戏树”,以描述每个玩家的潜在未来动作。游戏树代表每个玩家在每个未来决策点可以采取的所有可能的动作(线)。在进行可能数十亿次的游戏模拟时,CFR指出哪些动作增加或减少了获胜的机会,并反复修改其策略以包括更多好的决策。最终,它计划了一种最佳策略,在最坏的情况下,它会与任何对手联系在一起。

CFR非常适合像扑克之类的游戏,可以通过公共行动(例如下注钱和弃牌)来进行,但是当行动为秘密时,CFR会遇到困难。研究人员的CFR结合了公共行为和私人行为的后果,以确定参与者是抵抗还是间谍。

该机器人是通过对抗自己作为抵抗力和间谍来进行训练的。在玩在线游戏时,它使用其游戏树来估计每个玩家将要做什么。游戏树代表一种策略,该策略赋予每个玩家获胜的最大可能性,以此作为指定角色。该树的节点包含“反事实值”,基本上是对玩家在执行给定策略时获得的回报的估计。

在执行每个任务时,机器人会查看每个人与游戏树相比的玩法。如果在整个游戏过程中,玩家做出的决策与机器人的期望不一致,那么该玩家可能会扮演另一个角色。最终,机器人为每个玩家的角色分配了很高的概率。这些概率用于更新机器人的策略,以增加其获胜的机会。

同时,它使用相同的技术来估计第三人称观察者如何解释自己的行为。这有助于估计其他参与者的反应,从而做出更明智的决策。“如果执行的两人任务失败,那么其他玩家就会知道一个玩家是间谍。该机器人可能不会在未来的任务中提议同一个团队,因为它知道其他玩家认为这很糟糕。”塞里诺说。

语言:下一个领域

有趣的是,该机器人不需要与其他玩家交流,这通常是游戏的关键组成部分。“ Avalon”使玩家可以在游戏过程中在文本模块上聊天。Kleiman-Weiner说:“但是事实证明,我们的机器人能够与其他人一起很好地工作,同时仅观察玩家的行为。” “这很有趣,因为人们可能会认为这样的游戏需要复杂的沟通策略。”

接下来,研究人员可以使机器人在游戏过程中使用简单的文字进行交流,例如说出玩家的好坏。那将涉及给文本分配一个相关的概率,即玩家是抵抗者还是间谍,机器人已经使用它来做出决定。除此之外,未来的机器人可能会配备更复杂的通讯功能,使其能够玩重语言的社交演绎游戏,例如流行的游戏“狼人”,其中涉及数分钟的争论并说服其他玩家了解谁在好的和坏的团队。

“语言绝对是下一个领域,” Serrino说。“但是在那些沟通至关重要的游戏中,攻击存在许多挑战。”

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭
关闭