如何推进发展更灵活的AI系统
扫描二维码
随时随地手机看文章
机器人技术为推进人工智能提供了重要机会,因为教机器独立学习将有助于在其他场景中开发更有能力和更灵活的AI系统。与各种机器人合作,Facebook AI研究人员正在探索新技术,以突破人工智能的界限。
做这项工作很复杂,数据更嘈杂,条件变化更大且不确定,实验还有额外的时间限制(因为在学习时不能加速模拟)。这些问题并不简单,但是它们为AI提供了有用的测试用例。
与其他人工智能研究领域一样,在机器人领域的大部分工作都集中在自我监督上,其中系统直接从原始数据中学习(而不是从特定任务的特定结构化训练数据中学习),因此它们可以适应新任务和新任务情况。
教机器人自学走路为了在机器人技术中做到这一点,团队正在推进诸如基于模型的强化学习(RL)之类的技术,以使机器人能够使用来自传感器的直接输入通过反复试验来自学。这里强调的项目展示了使用这些自我监督的学习方法来解决这一领域中最基本的挑战:开发可以四处移动并探索周围环境,并操纵遇到的物体的机器人。
这项工作将导致更强大的机器人,但更重要的是,它将使人工智能可以更有效地学习,更好地推广到新的应用程序。
为了突破机器如何独立学习的极限,团队正在开发基于模型的RL方法,使六足机器人能够学会走路,而不需要特定任务的信息或训练。
机器人从头开始学习,没有关于其环境或物理能力的信息,然后它使用数据有效的RL算法来学习实现期望结果的控制器,例如向前移动。在收集信息时,模型会优化奖励并随着时间的推移改善其性能。
学习走路是很有挑战性的,因为机器人必须在它的传感器的帮助下,比如在它六条腿的每个关节上的传感器(因为它的脚上没有传感器),推断出它在空间中的平衡、位置和方向。这些传感器是有噪声的,使得这种估计很困难并且容易出错。
我们的目标是减少机器人学习走路所需的互动次数,因此只需几个小时而不是几天或几周。技术包括贝叶斯优化以及基于模型的RL,旨在推广用于各种不同的机器人和环境。除了机器人技术之外,它们还可以帮助提高RL的样品效率,例如A / B测试或任务调度。
利用好奇心更有效地学习好奇心是人类学习的核心动力,好奇的AI系统因探索和尝试新事物以及实现特定目标而获得奖励。虽然以前的类似系统通常会随机地探索它们的环境,但我们会以结构化的方式进行探索,寻求通过了解周围环境来满足其好奇心,从而减少模型的不确定性。我们已经成功地将这种技术应用于模拟和真实世界的机器人手臂。
我们的方法不同于其他好奇心驱动的机器人研究,因为我们明确优化了解决不确定性的行动。为了探索动态模型的不确定部分的动作产生更高的回报,我们试图将模型预测的方差包括在奖励函数评估中。
系统意识到其模型的不确定性并优化动作序列,以最大化奖励(实现期望的任务)并减少模型的不确定性,使其能够更好地处理新的任务和条件。它可以生成更多种类的新数据并更快地学习,在某些情况下,可以进行数十次迭代,而不是数百次或数千次。
研究表明,寻求解决不确定性实际上可以帮助机器人更快地完成任务。模型也能更好地推广到新任务中。
虽然探索一个环境可能比只专注于特定目标更有效,这似乎违反直觉,但这种以好奇心为驱动的行为可以帮助机器人避免被困或卡住。
我们希望这项研究能够帮助创建在不确定环境中更灵活地响应并学习新任务的系统。这有助于进行结构化探索,以便更快、更有效地学习现实世界中的其他RL任务,并帮助开发将不确定性纳入其他模型的新方法。
通过触觉传感学习机器人通常主要依靠计算机视觉,但触摸也是一个重要而复杂的研究领域。例如,给定特定的操纵任务,如果物体被遮挡,机器人可以使用触觉感测来完成任务。
我们与加州大学伯克利分校的研究人员合作,开发了一种新的触摸学习方法,通过自我监督学习实现新目标,无需任务专用训练数据。然后可以通过分配新目标,使用此模型来确定要采取的最佳操作顺序。
我们采用了最初为视频输入开发的预测模型,并将其用于优化基于深度模型的控制策略,这些策略直接对原始数据进行操作,在本例中,原始数据由高分辨率触觉传感器提供的高维地图组成。研究表明,通过与环境的多种自我监督的探索性互动,可以完全学习预测模型而无需奖励。
使用此视频预测模型,机器人能够完成一系列复杂的触觉任务:滚动球,移动操纵杆,以及识别20面模具的右侧面。该模型的成功表明了使用视频预测模型创建系统的承诺,这些系统可以了解环境对触摸的反应。
这项研究还为探索多模式学习创造了新的途径,这对于广泛的人工智能研究非常重要,例如开发系统以更好地理解不同模式的内容。
如果我们想要更接近能够像人类那样思考、计划和推理的机器,那么就需要构建能够在数字世界之外的许多场景中自学的人工智能系统。
机器人技术是人工智能长期研究的重点,以上展示的例子是Facebook AI中正在进行的众多机器人研究项目中的一些,它们将帮助我们构建可以更有效地学习并更好地推广到新应用程序的AI。