当前位置:首页 > 智能硬件 > 机器人
[导读] 机器人技术的基本问题既涉及离散变量(比如控制模式或齿轮切换的选择),又涉及连续变量(比如速度设定点和控制增益)。通常来说,由于算法或控制策略并不总是适合的,因此这些问题很难解决。这就是为什么谷歌

机器人技术的基本问题既涉及离散变量(比如控制模式或齿轮切换的选择),又涉及连续变量(比如速度设定点和控制增益)。通常来说,由于算法或控制策略并不总是适合的,因此这些问题很难解决。这就是为什么谷歌母公司Alphabet的DeepMind的研究人员最近提出了一种技术:连续-离散混合学习,即可以同时优化离散和连续动作,以其本来的形式处理混合问题。

在预印本服务器Arxiv.org上发表的一篇论文详细介绍了他们的工作,这篇论文也在去年10月日本大阪的第三届机器人学习会议上被人接受。作者写道:“许多先进的方法都进行了优化,它们能很好处理离散的或是连续的动作空间,但是却很少有方法能同时处理。能够使用同一算法强大地处理离散和连续动作空间,使我们能够针对任何给定问题都能选择最自然的解决方案策略,而不是让算法上的便利性来决定做出哪种选择。”

团队研发的无模型算法,是指利用强化学习或者奖励实现目标的自主代理人的培训技术,通过连续和离散动作空间来解决控制问题,并通过受控和自主切换来解决混合最优控制问题。此外,这种算法通过使用“元动作”或其他类似方案来扩大动作空间(分别定义了代理人可能感知和采取的状态和动作的范围),从而为解决现有的机器人问题提供了新颖的解决方案,并使策略可以解决类似人工智能训练期间的机械磨损等挑战 。

研究人员在一系列模拟和现实基准测试中验证了他们的方法,包括Rethink Robotics公司的Sawyer机器人手臂。据称,基于给定的到达、抓取和拿起魔方的任务,其中奖励是三个子任务的总和,因此他们的算法要优于无法解决任务的现有方法。

那是因为到达魔方需要代理人打开手臂的抓具,而抓取方块需要关闭抓具。作者写道:“一开始,基线将大部分概率集中在较小的动作值上,因此很难移动抓具的手指来看到任何奖励,从而解释了学习曲线上的平稳期。另一方面,这个算法能始终以全速操作抓具,因此改进了探查性,使机器人可以完全完成任务。”

在一个单独的实验中,团队将其算法设置为参数化动作空间马尔可夫决策过程(PAMDP)或一个分层问题,其中,代理人首先选择离散动作,然后为该动作选择一组连续的参数集。在这种情况下,代理人的任务是操纵机器人手臂,以便将钉子插入孔中,然后根据孔的位置和运动学来计算奖励。

研究人员表示,他们的方法比精细方法和粗略方法获得了更大的回报,并且这种算法将来可以作为基础应用到更多的混合强化学习中。论文中写道:“对于专业设计师而言,事先选择合适的模式可能很困难。而我们的方法是很有用的,因为它只需要一个实验,而别的方法都需要通过消融来进行验证。”

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭
关闭