MIT开发了一种配备人工智能的机器人能在线多人游戏中击败人类玩家

时间：2020-05-15 23:57:02

关键字：人工智能机器人 MIT AN

手机看文章

扫描二维码
随时随地手机看文章

[导读] 麻省理工学院（MIT）的研究人员开发了一种配备了人工智能的机器人，该机器人可以在棘手的在线多人游戏中击败人类玩家，而其中的玩家角色和动机却被保密。已经建立了许多游戏机器人来跟

麻省理工学院（MIT）的研究人员开发了一种配备了人工智能的机器人，该机器人可以在棘手的在线多人游戏中击败人类玩家，而其中的玩家角色和动机却被保密。

已经建立了许多游戏机器人来跟上人类玩家的步伐。今年早些时候，卡内基梅隆大学的一个团队开发了世界上第一个可以击败多人扑克专业人士的机器人。DeepMind的AlphaGo在2016年成为头条新闻，以击败专业的Go玩家。还建立了一些机器人来击败专业的国际象棋玩家或联合起来合作合作游戏，例如在线夺旗。但是，在这些游戏中，机器人从一开始就了解其对手和队友。

在下个月的神经信息处理系统大会上，研究人员将展示DeepRole，这是第一个可以赢得在线多人游戏的游戏机器人，参与者最初对团队的忠诚度尚不清楚。该机器人的设计是将新颖的“演绎推理”添加到通常用于玩扑克的AI算法中。这有助于其推理出部分可观察的动作，从而确定给定玩家是队友或对手的可能性。通过这样做，它可以快速了解与谁结盟以及采取哪些行动来确保其团队的胜利。

研究人员在超过4，000轮在线游戏“抵抗：阿瓦隆”中将DeepRole与人类玩家进行比较。在该游戏中，玩家尝试随着游戏的进行推断出同龄人的秘密角色，同时隐藏自己的角色。作为队友和对手，DeepRole始终优于人类选手。

“如果用机器人代替人类的队友，则可以期望团队获得更高的获胜率。机器人是更好的合作伙伴。”第一作者杰克·塞里诺（Jack Serrino ‘18）说，他是麻省理工学院电气工程和计算机科学专业的学生，是狂热的在线“阿瓦隆”玩家。

这项工作是一个更广泛的项目的一部分，该项目旨在更好地模拟人类如何做出具有社会根据的决定。这样做可以帮助构建更好地理解，学习人类并与人类合作的机器人。

“人类向他人学习并与他人合作，这使我们能够共同实现我们一个人无法独自完成的事情，”合著者马克斯·克莱曼·韦纳（Max Kleiman-Weiner）说，他是大脑，思维与机器中心和美国国防部的博士后。麻省理工学院和哈佛大学的脑与认知科学。“像“阿瓦隆”这样的游戏可以更好地模仿人类在日常生活中所经历的动态社交环境。无论是在幼儿园的第一天还是在办公室的第二天，您都必须弄清楚谁在团队中并会与您一起工作。”

哈佛大学的David C.Parkes和计算机认知科学教授，麻省理工学院计算机科学与人工智能实验室以及脑，思维和机器中心的成员Joshua B.Tenenbaum和Serrino和Kleiman-Weiner一起加入了本文。

演绎机器人

在“阿瓦隆”中，随机将三名球员秘密分配给“抵抗”队，将两名球员随机分配给“间谍”队。两名间谍玩家都知道所有玩家的角色。在每个回合中，一个玩家提议一个由两个或三个玩家组成的子集来执行任务。所有参与者同时并公开投票批准或拒绝该子集。如果获得多数同意，则子集会秘密确定任务是成功还是失败。如果选择两个“成功”，则任务成功。如果选择一个“失败”，则任务失败。反抗玩家必须始终选择成功，但间谍玩家可以选择任一个结果。抵抗队在成功完成三个任务后获胜；在执行了三个失败的任务后，间谍团队获胜。

赢得游戏基本上归结为推论谁是反抗或间谍，然后投票给您的合作者。但这实际上比下棋和扑克更加复杂。Kleiman-Weiner说：“这是一个信息不完善的游戏。” “您甚至不确定一开始就反对谁，因此还有一个发现阶段，寻找与谁合作。”

DeepRole使用一种称为“反事实后悔最小化”（CFR）的游戏计划算法-通过反复与自己对战来学习游戏-并增加了演绎推理。在游戏的每个点上，CFR都会前瞻性地创建由线和节点组成的决策“游戏树”，以描述每个玩家的潜在未来动作。游戏树代表每个玩家在每个未来决策点可以采取的所有可能的动作（线）。在进行可能数十亿次的游戏模拟时，CFR指出哪些动作增加或减少了获胜的机会，并反复修改其策略以包括更多好的决策。最终，它计划了一种最佳策略，在最坏的情况下，它会与任何对手联系在一起。

CFR非常适合像扑克之类的游戏，可以通过公共行动（例如下注钱和弃牌）来进行，但是当行动为秘密时，CFR会遇到困难。研究人员的CFR结合了公共行为和私人行为的后果，以确定参与者是抵抗还是间谍。

该机器人是通过对抗自己作为抵抗力和间谍来进行训练的。在玩在线游戏时，它使用其游戏树来估计每个玩家将要做什么。游戏树代表一种策略，该策略赋予每个玩家获胜的最大可能性，以此作为指定角色。该树的节点包含“反事实值”，基本上是对玩家在执行给定策略时获得的回报的估计。

在执行每个任务时，机器人会查看每个人与游戏树相比的玩法。如果在整个游戏过程中，玩家做出的决策与机器人的期望不一致，那么该玩家可能会扮演另一个角色。最终，机器人为每个玩家的角色分配了很高的概率。这些概率用于更新机器人的策略，以增加其获胜的机会。

同时，它使用相同的技术来估计第三人称观察者如何解释自己的行为。这有助于估计其他参与者的反应，从而做出更明智的决策。“如果执行的两人任务失败，那么其他玩家就会知道一个玩家是间谍。该机器人可能不会在未来的任务中提议同一个团队，因为它知道其他玩家认为这很糟糕。”塞里诺说。

语言：下一个领域

有趣的是，该机器人不需要与其他玩家交流，这通常是游戏的关键组成部分。“ Avalon”使玩家可以在游戏过程中在文本模块上聊天。Kleiman-Weiner说：“但是事实证明，我们的机器人能够与其他人一起很好地工作，同时仅观察玩家的行为。” “这很有趣，因为人们可能会认为这样的游戏需要复杂的沟通策略。”

接下来，研究人员可以使机器人在游戏过程中使用简单的文字进行交流，例如说出玩家的好坏。那将涉及给文本分配一个相关的概率，即玩家是抵抗者还是间谍，机器人已经使用它来做出决定。除此之外，未来的机器人可能会配备更复杂的通讯功能，使其能够玩重语言的社交演绎游戏，例如流行的游戏“狼人”，其中涉及数分钟的争论并说服其他玩家了解谁在好的和坏的团队。

“语言绝对是下一个领域，” Serrino说。“但是在那些沟通至关重要的游戏中，攻击存在许多挑战。”