深度学习能力人工智能教机器人走路！

时间：2019-01-04 10:34:06

关键字： AI 人工智能机器人电源资讯

手机看文章

扫描二维码
随时随地手机看文章

[导读]人工智能系统，使机器人具备了像人类一样灵巧地掌握和操纵物体的能力，现在，研究人员表示，他们已经开发出一种算法，通过这种算法，机器可能学会独立行走。来自加州大学伯克利分校和其中之一的谷歌人工智能研究部门的科学家们，在Arxiv.org上发表《通过深度强化学习，来学习走路》，它描述一个人工智能系统，教一个长了四只脚的机器人穿越熟悉和不熟悉地形。

人工智能系统，使机器人具备了像人类一样灵巧地掌握和操纵物体的能力，现在，研究人员表示，他们已经开发出一种算法，通过这种算法，机器可能学会独立行走。来自加州大学伯克利分校和其中之一的谷歌人工智能研究部门的科学家们，在Arxiv.org上发表《通过深度强化学习，来学习走路》，它描述一个人工智能系统，教一个长了四只脚的机器人穿越熟悉和不熟悉地形。

该论文作者解释说，深度强化学习可以用于自动获取一系列机器人任务数据，从而实现将感知输入映射到低级动作的策略的端到端学习。如果我们能在现实世界中，直接从零开始学习移动步态，原则上，我们就能获得最适合于每个机器人的步态，从而有可能获得更好的灵活性、能源效率和稳健性。

设计挑战有两方面。强化学习人工智能训练技术使用奖励或惩罚来驱动个体朝着目标前进，需要大量的数据，在某些情况下需要数万个样本，才能取得良好的结果。即：在美国，决定其结构的参数通常需要进行多次训练，这可能会随着时间的推移损害机器人。

作者指出，深度强化学习在仿真中广泛应用于学习运动策略，甚至将其应用到现实机器人中，但由于仿真中存在的差异，不可避免地会导致一些性能损失，需要大量的手工建模。事实证明，在现实世界中使用这种算法是具有挑战性的。

为了寻求一种方法，用研究人员的话说，可以让一个系统在没有模拟训练的情况下学习运动技能，他们开发了一个名为 maximum entropy RL的强化学习框架。它优化了学习策略，即被处理数据的随机性最大化。在RL中，AI agent通过对策略中的行为进行采样并获得奖励，不断寻找行为的最优路径，即状态和行为的轨迹。

他们开发了一个由计算机工作站组成的流水线，该工作站更新神经网络，从Minitaur下载数据，并上传最新的策略，机器人上搭载的Nvidia Jetson TX2执行上述策略，收集数据，并通过以太网将数据上传到工作站。两小时内，他们用一种奖励前进速度、惩罚大角度加速度和俯仰角的算法，走了16万步，成功地训练了这架小型机器人在平坦的地形上行走，越过木块等障碍物，爬上斜坡和台阶。

研究人员写道，据我们所知，这个实验是一个深层强化学习算法的第一个例子，该算法直接在现实世界中学习不受驱动的四足动物运动，不需要任何模拟或预先训练。