武汉大学高智教授团队:动态场景下基于视觉同时定位与地图构建技术的多层次语义地图构建方法 | 《电子与信息学报》佳文速递
扫描二维码
随时随地手机看文章
编者按
同时定位与地图构建技术(Simultaneous Localization And Mapping, SLAM)是指在没有环境先验信息的情况下,机器人可以估计自身位置和构建环境地图的技术已经成为机器人在未知领域内自主工作的核心技术。
针对目前视觉SLAM遇到的问题以及现有方法的不足,武汉大学高智教授团队与中科院空天信息创新研究院合作,提出一种简便且有效的视觉SLAM系统。本文方法考虑了被迫移动的物体给定位和建图带来的影响,在定位精度上远优于目前主流的动态场景下的视觉SLAM方案,证明在高动态场景中具有较好的稳定性和鲁棒性。
原论文:动态场景下基于视觉同时定位与地图构建技术的多层次语义地图构建方法 (jeit.ac.cn)
引言
基于视觉的同时定位与地图构建技术(Simultaneous Localization And Mapping ,SLAM)是无人系统智能感知与探索的核心技术之一,其被广泛应用于太空探索、灾后搜救、地下矿道探索、水下潜航等领域。然而现有大部分SLAM算法难以处理场景中的运动物体,进而导致SLAM方法的性能退化,给高精度位姿估计与地图构建带来挑战。
图1 动态场景下基于视觉同时定位与地图构建技术的多层次语义地图构建运行演示
视频演示
动态场景下视觉SLAM的主要挑战
目前,传统视觉SLAM都基于静态环境的假设,这使得视觉SLAM可以利用前端特征点匹配、后端回环检测等关键技术完成定位与环境理解。但这一假设限制了视觉SLAM在真实场景中的广泛应用,因此动态环境下可靠运行的视觉SLAM成为目前广泛关注的一个研究热点与难点。
从视觉SLAM定义出发,可以从两方面理解这一难点。首先动态目标会影响前后帧之间的匹配,从而大幅度降低视觉SLAM的定位精度,其次动态目标的出现会影响环境理解过程中所构造地图的稳定性,如常规特征地图、栅格地图和点云地图在动态场景下都无法展现真实的场景信息。
为克服环境中动态目标对视觉SLAM的影响,武汉大学高智教授智能无人系统团队提出了一种基于目标检测网络的视觉SLAM系统。
该方法首先利用被迫移动物体与动态目标间的空间位置关系,并结合光流约束判断真正的动态目标,从而剔除动态特征点,提升定位精度;其次提出一种基于超体素的快速点云分割方案,将基于静态区域构建的地图进行优化。同时,构建的语义地图可提供更高精度训练数据样本,又可以进一步提升目标检测网络性能。
武汉大学团队的方法
武汉大学高智教授带领的智能无人系统团队研究人员发现,现实场景中的动态目标可被分为两类:
一类为主动的动态目标,即在目标检测网络中可以通过先验设置的动态目标;
另一类为被动的动态目标,即这些目标原本应是静态的,但因为一些人为因素而运动,如被拿在手里的书本等,且这些被迫移动的物体都大概率会与动态目标相邻。
基于这一观察,结合目标检测网络,高智教授团队提出一种简单有效的方法检测实际移动目标,区分主动移动目标与被动移动目标。该方法克服了现有结合动态目标检测视觉SLAM方法不能区分虚假移动目标和静止目标的缺陷。
同时为验证通过目标检测网络判断出的结果是否可靠,团队又加入了光流约束模块,即通过计算符合几何约束的光流特征点的比例来判断潜在动态目标框内的目标是否真的存在运动。这一模块可以更加有效地针对诸如停在原地的汽车等,这类保持静止的潜在动态目标。
在地图构建方面,团队采用了循序渐进的方式建立多层次地图,每个层次的地图都有不同特点。首先是稠密语义点云地图,该地图在携带语义信息的同时能够更加直观地展现场景内容;
其次是语义分割地图,团队提出一种简便快速的点云分割方法,该方法基于超体素和邻接图思想,能够有效改善语义信息的误匹配和无法对齐等现象;最后是物体级语义地图,独立的三维模型被首次使用来表示每个不同物体类别。
图2 动态场景视觉SLAM系统总体框架
实验结果分析
团队不仅在公开数据集上完成了相关验证实验,也通过Intel RealSense D400系列相机在真实室内场景下采集数据并进行实时实验。
◆ 定位精度评估
通过将不同时刻生成的系统位置和姿态与对应的真实位置和姿态进行比较,可评估该视觉SLAM系统的定位精度。评价指标选用了被广泛使用的绝对轨迹误差ATE和相对误差RPE,其中绝对轨迹误差通过对真实值的位置偏移求和来评估轨迹的整体质量,而相对位姿误差则考虑局部运动误差,因此可以用来测量漂移。
为了能够提供更加完善的实验结果,本文对每个数据集进行连续5次的数据采集,记录每次的均方根误差,并将这5次的均值作为最终数据样本,数据结果如表1所示。实验结果表明所提方法在高动态场景下,无论是ATE还是RPE,相比现有方法都有非常明显的提高。
表 1 绝对轨迹误差和相对位姿误差在不同方法下的数据对比
◆ 地图质量评估
所提方法构建的地图为稠密地图,因此可通过点云数量的对比及每个三维点的空间位置的比较来进行较为准确的评价。相较于现有地图重建方法,所提方法重建的地图与真实模型的重合度更高。
图3展示了在TUM的fr3-W-xyz数据集上生成多层次地图的最终结果,可以看出3张地图都没有受到数据集中大幅度走动的人的影响,并且都携带了一致的语义信息,其中绿色代表显示器,黄色为键盘,粉色为鼠标。而生成的地图3作为物体级语义地图不仅可以为避障和抓取等高级任务提供有效帮助,还节省了更多的存储资源。
图 3 fr3-W-xyz数据集上生成的多层次地图
总结
武汉大学高智教授智能无人系统团队针对动态场景下的不确定性问题,利用动态场景中目标之间的相互关系,结合目标检测网络和光流约束,提出了一套完整的可适用于动态场景的视觉SLAM方案。该方案不仅能够提升动态场景下的定位精度,还利用提出的基于超体素的点云分割方案,完成动态场景下的多层次语义地图构建。该视觉SLAM方案可以用于避障、导航等真实应用场景。
团队介绍
TEAM
武汉大学高智教授智能无人系统团队
智能系统与视觉实验室
Intelligent System Vision Laboratory
高智博士现就职于武汉大学遥感信息工程学院,教授、博士生导师,国家海外高层次人才计划(青年项目)获得者,湖北省楚天学者特聘教授,湖北省杰青,国家基金委重大项目课题负责人。高智教授长期从事人工智能、计算机视觉与智能无人系统相关的核心问题研究,及其在测绘遥感领域的应用研究。
高智教授曾经在新加坡国立大学工作11年,先后担任博士后,博士后研究员,研究员及独立PI等职位。高智教授在科研项目、学术论文、人才培养、学术服务等方面取得优异成果。在科研项目方面,作为项目负责人或课题负责人主持了中国、新加坡政府项目10余项及跨国公司合作项目6项。在学术论文方面,发表学术论文90余篇,其中SCI论文43篇,发表在IEEE PAMI、IJCV、IEEE TIP、ISPRS JPRS、IEEE TGRS、IEEE ITS、CVPR、ECCV、ICRA、IROS等顶级期刊及会议。在人才培养方面,指导博士后4人、博士生12人、硕士生36人,并指导学生多次在国内外比赛中获奖。
在学术服务方面,曾担任2项期刊的编委,3项国际会议的编辑、程序委员会成员和分论坛主席,受邀发表主题演讲10余次。高智教授具有广泛的科研合作,团队与香港中文大学、香港科技大学紧密合作,围绕前沿技术研究、高端人才培养等领域开展高水平、高质量的合作,双方团队每周举行学术讨论与会议,建立了稳定的人员定期互访机制。
团队一直关注恶劣与挑战场景(如不稳定光照、暗光照、弱纹理、恶劣天气、动态环境)下无人系统视觉相关的最前沿研究领域,并围绕“Vision for Intelligent Systems”和“Intelligent Systems based Vision”两个重点研究方向开展了深入研究,取得一系列成果。
在Vision for Intelligent Systems方面,团队在同时定位与地图构建(Simultaneous Localization And Mapping)、鲁棒位姿估计与运动控制、多模态数据融合与处理方面有较多积累,多篇学术论文发表于机器人、自动化及工业应用领域的顶刊、顶会,包括IEEE Transactions on Cybernetics、IEEE Transactions on Industrial Electronics、IEEE Transactions on Robotics、IEEE Transactions on Intelligent Transportation Systems、IROS、ICRA等。
图4 在地下矿道内通过多传感器融合进行定位与建图
在Intelligent Systems based Vision方面,团队在基于人工智能的场景语义分割与理解、影像去雾去雨、小样本目标检测、遥感影像智能解译等领域有较多成果。相关论文发表于业内顶刊、顶会,包括IEEE Transactions on Pattern Analysis and Machine Intelligence、IEEE Transactions on Image Processing、International Journal of Computer Vision 、ISPRS Journal of Photogrammetry and Remote Sensing、CVPR、ECCV等。
图5 恶劣条件下视觉数据增强
美编 | 张良良、马秀强
校对 | 融媒体工作室
审核 | 陈倩
声 明
本文系《电子与信息学报》独家稿件,内容仅供学习交流,版权属于原作者。欢迎评论、转载和分享本公众号原创内容,转载请与本号联系授权,标注原作者和信息来源《电子与信息学报》。
本号发布信息旨在传播交流。如涉及文字、图片、版权等问题,请在20日内与本号联系,我们将第一时间处理。《电子与信息学报》拥有最终解释权。