关于机器人智能抓取AI+Grasp的技术分析
扫描二维码
随时随地手机看文章
(文章来源:激光天地)
抓取规划问题是指确定物体与手指间的一系列接触位置,使得手指能抵抗任意外力且灵活操作物体的能力。传统的基于分析的抓取规划需要根据已知的被抓物体模型根据力闭合的条件判断抓取的好,这种方法只适合对已知的物体进行抓取。然而日常生活中有很多相似物体,没有必要为每一个物体都建立精确的模型,因此可以用相似性匹配的方法解决这类物体的抓取。随着人工智能的发展,人工神经网络可以从大量的已知物体的抓取中提取出有用的抓取基元,从而实现对未知物体的抓取。这样做的好处是不必为每个被抓物体建立几何模型,让机器人智能抓取操作物体。
美国加州大学伯克利分校提出了利用大量的物体三维模型和分析的方法生成抓取数据集,并利用深度图和卷积神经网络(CNN)对抓取进行分类 [2]。他们首先把抓取简化为一个从上至下的夹取(top-down grasp),根据输入的点云生成上百个成对的抓取候选,再利用CNN对候选抓取进行快速评分,从而得到最好的抓取。与之前的基于数据的抓取不同的是,他们没有使用费时费力的人工标定抓取的方式或机器人随机抓取来采集数据集,而是利用力闭合的原理通过分析的方式计算出抓取的好坏(是否力闭合)。这样的好处是可以低成本的生成大量的数据集。
美国西北大学进一步使用点云在不同方向的投影作为人工神经网络的输入对抓取进行评分并把抓取数据集扩展到6D位姿抓取。利用点云的好处是可以让网络得到更丰富的信息。不同于Dex-Net,这个工作使用的是6D抓取位姿作为抓取的表示。在生成抓取候选上,该文使用了一些设计好的策略。这个策略基于物体的曲面形状。首先随机在物体表面采样一点,以这个点所在的曲面法向作为抓取候选的朝向,“主成分”方向作为两个夹爪连线的方向。并通过基于该抓取的旋转和平移扩充抓取候选的个数。通过这种采样方式,可以增加抓取候选中好抓取的比例。经过CNN对抓取候选的分类后,最高可达93%抓取成功率。
进一步,德国汉堡大学张建伟教授团队和清华大学孙富春教授团队共同提出了对上述工作的改进[4]。对于数据集的生成,通过在给抓取打分时不断调整夹爪和物体之间的摩擦系数得到一个更细化的抓取分数(摩擦系数越小,抓取分数越高)。这样的数据集可以得到一个带分数的抓取,从而可以让网络学得更细分的抓取分类。对于网络结构上,他们使用了PointNet,这样的好处是可以直接使用点云作为输入,不需要对点云进行投影。更大的保留了点云的几何信息。
不同于首先生成抓取候选,再对抓取分类、评分的思路,英伟达公司的机器人研究团队提出了直接根据输入的物体点云生成抓取。在数据集生成上,他们使用了纯物理引擎仿真抓取的方式。这种方法的好处是可以生成用特定规则生成抓取[3.4]得不到的抓取。这是因为通常分析的方法生成抓取数据集把抓取简化成了两个点。
而在实际抓取中,机器人通常具有两个平行的手指作为夹爪。另一个原因是抓圆环物体如带柄的马克杯时,力闭合原理无法生成“Caging”的抓取。因此用物理引擎可以完全模拟真实中的抓取情形,生成更多样化的抓取。在网络上,他们把被抓物体点云和夹爪点云一起作为输入,使用PointNet++网络和自编码机的结构生成好的抓取,并利用一个网络优化生成的抓取。
基于多模态的抓取通常是指通过不同的指尖力传感器在正式抓取前通过“预抓取”判断抓取的稳定性,从而决定是继续抓取还是调整一个新的抓取姿态。清华大学孙富春教授团队提出使用视觉来生成抓取,并用指尖的触觉判断抓取的稳定性[6]。为此,他们采集了一个视觉、触觉抓取数据集,并分别用两个网络对抓取进行生成和稳定性判断。该团队又与Intel中国研究院合作,建立了一个视觉、触觉、力等多模态的机器人抓取数据集,通过视触融合实现抓取稳定判断[7]。清华大学孙富春教授团队也是利用多模态信息实现的机器人智能抓取,而赢得了“IROS2019机器人灵巧抓取操作比赛”物流分拣项目的冠军。
加州大学伯克利分校提出了利用一个基于视觉的触觉传感器—GelSight来进行多模态抓取任务[8]。得益于他们使用的基于视觉的触觉传感器,可以天然的使用广泛应用的视觉处理神经网络(CNN),通过与抓取,机器人判断抓取的好坏并生成下一步的动作。这样这个机器人系统可以自主的根据触觉反馈调整抓取策略而不需要人工干预。
二指抓取的好处是对抓取的表达比较简单,但是抓取通常并不是机器人操作的最终目的,人们往往希望通过手内改变被抓物体的姿态和位置完成一些操作任务。如使用工具。 美国马里兰大学的研究者提出了一个端到端的多指抓取生成网络[9]。 这个网络使用点云作为输入,使用3DCNN网络直接生成Shadow多指手的抓取规划。
美国麻省理工学院的学者针对多指抓取生成过程中网络不能适应不同的多指手的问题提出了解决方案[10]。他们提了一个统一的多指抓取模型以适应不同的机械手。首先,他们把爪子和被抓物体的特征映射到一个低维空间。然后用一个点云选择网络去生成接触点,通过接触点继而生成一个无障碍的抓取。
上面的工作都是与任务无关的无序抓取,但是在机器人操作上抓取通常是有目的的。如转移物体,递给其他机器人/人,使用抓取的物体。在这一领域最新的工作是西安交通大学的机器人课题组[11]。他们在一个有重叠的场景下完成了基于任务的抓取。首先,他们建立了一个合成的堆叠物体的数据集,并使用条件随机场(CRF)建立了物体的语义模型。这个模型可以的推导过程用RNN来表示,这样整个基于任务的模型可以端到端进行训练。
机器人的智能抓取已经成为研究热点,也逐渐在物流快件、工件、食品等分拣行业中凸显了重要性。未来如何实现机器人认知的智能抓取操作将会成为重点研究问题。