论文笔记_S2D.56_基于视觉和激光雷达融合的SLAM(综述2020)
目录
基本情况:
摘要
I 介绍
II SLAM
III V-SLAM
IV LiDAR Based SLAM
4.1 扫描匹配和图优化
4.1.1 占用图和粒子过滤器
4.1.2 回环检测提纯(Refinement)步骤
V LiDAR-Camera Fusion
5.1 强制校准步骤
5.2 Visual-LiDAR SLAM
5.2.1 EKF混合SLAM
5.2.2 改进Visual SLAM
5.2.3 改进LiDAR SLAM
5.2.4 并发LiDAR-Visual SLAM
5.3 小结
VI 讨论未来的研究方向
VII 结论
基本情况:
- 出处:Debeunne C, Vivet D. A Review of Visual-LiDAR Fusion based Simultaneous Localization and Mapping[J]. Sensors, 2020, 20(7): 2068.
摘要
自主导航既需要精确又强大的地图和定位解决方案。在这种情况下,同时定位和建图(SLAM)是非常适合的解决方案。 SLAM可用于许多应用,包括移动机器人,自动驾驶汽车,无人驾驶飞行器或水下自动驾驶汽车。在这些领域中,对视觉和视觉IMU SLAM都进行了深入研究,并在文献中定期提出改进建议。但是,LiDAR-SLAM技术似乎与十年或二十年前相对相同。此外,很少有研究工作专注于视觉-LiDAR方法,而这种融合将具有许多优势。确实,混合解决方案可改善SLAM的性能,特别是在激进运动,光线不足或视觉特征方面。这项研究提供了关于视觉LiDAR SLAM的全面调研。在总结了SLAM的基本思想及其实现之后,我们对SLAM的最新研究进行了全面回顾,重点介绍了使用视觉,LiDAR和两种模式的传感器融合的解决方案
I 介绍
在过去的几十年中,移动机器人的自主导航一直是非常活跃的研究领域。自主导航的主要要求是,首先,要对机器人本身进行良好且准确的定位,其次,要对机器人的环境有良好的了解或感知。如今,所使用的主要定位系统是全球导航卫星系统(GNSS)解决方案,该解决方案可在地球上提供高精度的绝对定位。但是,根据环境(隧道,山洞,城市峡谷等)的不同,此类系统并不总是可用或准确的,并且可能导致几米的误差,这对于安全的自主导航是不可接受的。
此外,移动机器人即使在具有潜在障碍的动态环境中也需要能够导航,并且始终没有关于其环境的任何先验信息(行星探测,搜索和救援等)。使机器人能够导航的唯一方法是以某种形式表示环境。在线生成3D地图似乎是3D世界中完整自主导航的起点。这样的地图可以由简单的几何特征组成,也可以由更复杂的语义对象组成。借助一致的地图,该机器人将能够检测自由空间,障碍物和易于检测到的地标,从而精确安全地导航。这样做,机器人将能够自行探索并绘制未知环境并与之安全交互。这种移动机器人的应用非常广泛:太空探索,自动驾驶汽车,海底分析,采矿应用,搜索和救援,结构检查等等。这种导航方法称为同时定位和映射(SLAM)。
SLAM是机器人系统使用不同类型的传感器构建环境地图同时估计其在环境中位置的过程。然后,操作员可以使用这种地图来可视化环境并设置机器人的路径,甚至可以由机器人本身来自主计划自己的任务。自主导航就是这种情况,在这种情况下,机器人必须规划自己的路径并做出正确的决定,而无需人工干预。即使发生某些意外事件,此类机器人也可以保持自身的稳定性并计划其运动。目前,自动驾驶汽车领域是SLAM应用研究最多的背景之一,因为它既需要本地化又需要绘制地图才能在环境中导航。
最近,业界提出了被称为“自动驾驶”的汽车,但是这些汽车只是自动导航的第一步,必须被视为“半自动驾驶”,因为它们只能在非常特殊的情况下保证安全的自动驾驶。特斯拉自动驾驶仪保证此时仅在高速公路路段或简单情况下自动驾驶[1],但需要驾驶员全神贯注。考虑到Google汽车,它只能在良好的天气条件下使用预先存在的精确3D地图[2]在“宽阔的道路”上行驶。
大多数自动驾驶汽车都使用光检测和测距(LiDAR)和/或立体摄像头来感知其所处的环境。此类系统通常与差分GPS(D-GPS)或基于卫星的增强系统(SBAS)和惯性测量单元(IMU)混合使用,以增强定位解决方案的稳定性[3]。对于此类传感器,如果可以使用非常好的GNSS,则定位精度可能会落在几厘米的范围内。但是,在无法信任GNSS的情况下,必须研究其他定位解决方案。大多数最先进的技术已尝试使用诸如RADAR,LiDAR和单眼/立体相机之类的外在感知传感器来解决此定位问题。通过将此类外感传感器与经典的本体感测传感器(IMU,里程表)混合使用,可以减少或消除由于此类相对定位方法的累积误差而引起的漂移。有趣的是,最常用的方式(相机和LiDAR)是两种截然不同的传感器,各有优缺点。例如,激光扫描仪对于障碍物的检测和跟踪很重要,但对雨水很敏感,而相机通常用于对场景进行语义解释,但不能在恶劣的照明条件下使用。由于它们看起来是互补的,因此它们的融合将可以平衡各自的主要缺点。有趣的是,SLAM问题中最具挑战性的问题是可以达到任意高值的错误累积[4]。同时使用视觉传感器和LiDAR传感器可以减少局部不确定性,然后限制整体漂移。
本文的目的是概述现有的SLAM方法,重点是新颖的混合LiDAR相机解决方案。 为了使SLAM的新研究人员可以访问此论文,我们将在
- 第2节中首先简要提醒一下SLAM流程背后的理论。 然后,由于当前最新的主要LiDAR相机解决方案是视觉SLAM和LiDAR SLAM的简单组合,因此我们认为对每种模式的SLAM进行概述很重要。
- 第3节将重点介绍不同类型的视觉SLAM(V-SLAM)方法,这意味着具有单目和立体相机的V-SLAM,以及现代RGB-D和事件相机。
- 然后,第4节将概述基于LiDAR的SLAM。
- 最后,在第5节中,我们将讨论有关混合摄像机LiDAR SLAM的最新技术,以了解已经覆盖的地面,并
- 在第6节中,还有哪些工作要做。
II SLAM
- 1、SLAM的概率方法解释
- 2、基于图的SLAM框架
III V-SLAM
- 1、所有这些视觉SLAM在光线改变或者低纹理环境都容易出错。
IV LiDAR Based SLAM
- 1、基于激光雷达的主要解决方案是扫描匹配方法,然后是图优化
- 2、每个节点表示一个传感器测量,边表示观测产生的约束
- 3、栅格地图和粒子滤波器
- 4、回环检测全局优化
每个设计为执行SLAM的移动机器人的共同点是,它们都使用了外感传感器。即使基于雷达的SLAM被证明是有效的[44-46],我们还是选择将本文的注意力集中在激光扫描设备上。这种选择的一个原因是,雷达还不够准确,无法提供车辆周围的良好3D映射,因此,将其与视觉传感器融合非常困难。考虑到LiDAR,使用激光扫描仪进行3D映射由于其简单性和准确性而仍然是一种流行的技术。的确,将LiDAR应用于SLAM问题,可以实现
- 低漂移运动估计,
- 并且具有可接受的计算复杂度[47]。
激光扫描方法似乎是2D和3D映射研究的基石。 LiDAR可以提供点云,这些点云可以轻松解释为执行SLAM。Stop-and-scan[48]是使用LiDAR达到适当SLAM解决方案的首批尝试之一。它避免了运动失真,但不是导航的可靠解决方案。与IMU的融合可以使用将速度信息作为输入的误差模型来校正运动失真[49]。虽然IMU通常用于使数据不失真,但也经常用于预测运动。文献[50]中的工作表明,这种方法可能会导致过度收敛,并且仅基于LiDAR失真分析提出了测距法。有趣的是,即使LiDAR的应用非常广泛,用于LiDAR扫描配准的技术仍保持了近十年的历史。基于LiDAR导航的主要解决方案是
- 扫描匹配方法,
- 然后是图优化。
4.1 扫描匹配和图优化
扫描匹配是使用LiDAR创建3D地图的基本过程,可提供精确的运动信息。注册3D点云的通用方法是迭代最近点(ICP)[51]。有关原理,请参见图4。其主要缺点是对点对应关系的昂贵搜索以及对最小化起点的高度敏感性。为了解决这个问题,可以引入kd-tree结构[47]来加快对最接近点的搜索。 [52]中的工作表明,通过使用考虑了扫描平面结构的概率框架,可以增强ICP的鲁棒性。这是广义ICP。一种替代方法是极坐标扫描匹配(PSM)[53],它利用激光扫描仪传递的极坐标来估计每个点之间的匹配。
图4. ICP算法的原理 在每次迭代时,在两次扫描之间提取最接近的点。根据这些匹配,将处理转换并将其应用于第二次扫描。然后,该过程反复进行,直到达到给定的成本标准为止。
为了减少局部误差,基于图的方法[54]可与LiDAR一起使用。机器人姿态的历史记录由图形表示:每个节点代表传感器的测量值,边缘代表由观察产生的约束(来自ICP结果)。依赖于姿态图的所有方法都可以使用各种优化方法(例如Levenberg–Marquardt优化器)来求解。以飞机导航为例,[55]提出了结合GNSS和IMU的2D LiDAR的使用。让我们注意,可以对2D和3D LiDAR都进行扫描匹配。考虑到2D LiDAR应用,在“平坦”世界假设的情况下,还提出了基于滤波的方法。
4.1.1 占用图和粒子过滤器
解决SLAM问题的另一种有效方法是使用Rao Blackwellized粒子过滤器,例如Gmapping [56]。它极大地减少了局部误差,并在平面环境中提供了有趣的结果。每个粒子代表一个可能的机器人姿势和贴图。但是,正确映射环境所需的大量粒子会导致不可忽略的计算时间。文献[57]中的研究表明,应用于二维SLAM的粒子滤波器能够基于似然模型来计算高度准确的提案分布。结果是获得了精确的占用栅格图,其中使用的粒子数量比传统方法小了一个数量级。当然,由于占用栅格的大小,使这种技术适应3D是非常困难的。
4.1.2 回环检测提纯(Refinement)步骤
先前的解决方案允许获得本地化并以里程计的方式构建环境图。为了完全解决SLAM问题,已将闭环步骤添加到LiDAR里程表中。为了提高全局地图的一致性,当机器人将自己放置在预先确定的位置时,可以执行循环闭合。可以通过[58]等基于特征的方法来执行。
对于激光扫描,使用几何描述符,例如直线,平面或球体。这些描述符用于在扫描之间执行匹配以检测最终的循环。由于每个扫描之间的扫描匹配器几乎无法实时运行,因此在[59]中使用了代表多个扫描环境的子图。所有完成的子图都会自动插入扫描匹配循环中,这将在围绕当前机器人姿势的滑动窗口中进行循环检测。
- Magnusson等60]提出了一种使用3D点云的正态分布变换(NDT)表示的原始回环检测过程。它基于描述表面方向和平滑度的特征直方图。
- [55]中的工作证明了通过执行闭环可以有效地校正LiDAR-SLAM的整体漂移。在他们的案例中,卡尔曼滤波器只是简单地增加了一个能够检测回路的位置识别模块。表2总结了基于LiDAR的SLAM。
V LiDAR-Camera Fusion
如前所述,借助视觉传感器或LiDAR可以执行SLAM。视觉传感器的优点是目前需要对它进行很好的研究。
即使V-SLAM提供准确的结果,也有一些缺点,
- 例如:单目情况下比例因子的漂移,深度估计不佳(延迟深度初始化)或立体视觉的范围小,重建地图的稀疏性(针对基于特征的间接方法),在室外场景中使用RGB-D的难度等。
- 考虑到基于3D LiDAR的SLAM,所使用的技术依赖于扫描匹配和图姿态。一些解决方案着重于地标检测和提取,但是获得的点云通常不够密集以至于无法高效运行。
- 尽管如此,LiDAR的主要优势是其在测距和制图方面的非常好的准确性。
如今,很明显,两种方式的融合对于现代SLAM应用程序将大有帮助。当然,使用这两种方式都需要第一步困难的校准步骤。本节将介绍可用的校准工具和LiDAR相机融合方法的最新技术。
5.1 强制校准步骤
为了通过具有最佳性能的LiDAR相机融合来执行SLAM,必须确保两个传感器之间的精确校准。如图5所示,需要进行外部校准来确定相机和LiDAR之间的相对转换。
最早提出交互式解决方案以校准相机至LiDAR的工具箱之一是[61]。它包括手动标记LiDAR扫描和相机框架的相应点。
- [62]中的工作详细介绍了使用棋盘进行自动相机激光校准的方法。它执行直线提取,以便推断两个传感器之间适当的刚性转换。但是,这些离线校准技术无法用于最佳的外部校准,因为外部参数每天都会更改,并且需要非常特殊的条件才能工作。
- 随着深度卷积神经网络(CNN)最近在机器人应用中变得流行,[63]中的工作提出了基于CNN的校准。 CNN将LiDAR和摄像机视差作为输入并返回校准参数。这提供了适用于实时应用的快速在线校准解决方案。目前,仍然没有通常使用的简单且准确的方法来解决这种校准问题。
图5.外参校准原理 目的是在激光雷达和摄像机之间找到刚性变换MCL。当前,通常使用2D或3D棋盘或图案之类的校准目标并通过检测每种模式(MBL和MCB)的图案来手动完成此操作。
5.2 Visual-LiDAR SLAM
5.2.1 EKF混合SLAM
在视觉激光雷达SLAM的背景下,已证明可以修改扩展卡尔曼滤波器(EKF)SLAM的经典公式,以集成这种传感器融合。
- [64]中的工作提出了一种使用数据关联的EKF的新表达方式,从而提高了SLAM的准确性。
- [65]中的工作还提供了带LiDAR EKF SLAM的RGB-D相机。这项工作的主要目的是解决视觉跟踪失败的问题。如果失败,则使用LiDAR姿态对RGB-D摄像机的点云数据进行定位以构建3D地图。这样的方法实际上并没有提供融合,而是两种模式之间的切换机制。
- [66]中的工作在微型飞机的低成本硬件环境上,基于使用EKF的视觉和惯性测量,集成了不同的最先进的SLAM算法。 SLAM系统中集成了2D LiDAR,以生成2.5D地图并改善机器人姿态估计。这样提出的方法仍然是不依赖于测量空间上的特征检测的松散耦合方法。文献中仍然缺少更紧密耦合的LiDAR视觉传感器融合算法。
5.2.2 改进Visual SLAM
从另一个角度来看,视觉SLAM算法所取得的出色性能促使人们使用传感器融合技术在这些框架上获得最佳解决方案。
- 在[67] LIMO 中,LiDAR测量用于深度提取。在将点云投影到框架后,使用基于可视关键帧的束调整执行运动估计和建图。
- 文献[68]提出了一种直接的视觉SLAM,它使用了LiDAR的稀疏深度点云(图6)。但是,由于相机分辨率远高于LiDAR分辨率,因此很多像素都没有深度信息。
- 在[69]中提出的工作提供了解决分辨率匹配问题的解决方案。在计算两个传感器之间的几何变换之后,进行了高斯过程回归以对缺失值进行插值。因此,仅使用LiDAR即可直接初始化图像中检测到的特征,方法与RGB-D传感器相同。
- 张等[70]提出了与一维激光测距仪相关的单眼SLAM。由于单眼SLAM经常遭受标度漂移的影响,因此该解决方案以非常低的硬件成本提供了有效的漂移校正。
Scherer等 [71]借助飞行机器人和混合框架,绘制了河流的路线和植被。通过视觉测距法结合惯性测量进行状态估计,并使用LiDAR感测障碍物并绘制河流边界。但是,点云可能包含被遮挡的点,这些点会降低估计的准确性。
- 文献[72]中的工作通过提出一种具有遮挡点检测器和共面检测器的直接SLAM方法来解决这个问题。在这些最后的文章中,视觉SLAM估计姿势用于在映射阶段记录LiDAR点云。
5.2.3 改进LiDAR SLAM
在视觉LiDAR SLAM的许多情况下,LiDAR用于通过扫描匹配进行运动估计,而相机则执行特征检测。
- 梁等[73]使用具有ORB功能的视觉回环检测方案,进行扫描匹配,增强了基于LiDAR的SLAM的性能。
- 在[74]中,基于3D激光的SLAM与一种视觉方法相关联,以使用视觉词袋通过基于关键帧的技术执行循环检测。此外,可以使用LiDAR相机融合来优化迭代最近点(ICP)。
- [75]中的工作使用视觉信息对刚性转换进行了初步猜测,该刚性转换用于播种广义ICP框架。
5.2.4 并发LiDAR-Visual SLAM
其他作品试图将LiDAR和visual-SLAM结果结合起来。
- [76]中的工作建议通过为每种模态并行运行SLAM以及耦合数据,来使用视觉和LiDAR测量。这是通过在优化阶段使用两种模态的残差来完成的。
- 张等[77]结合他们以前的工作来设计VLOAM。该visual-LiDAR测距法执行高频视觉测距法和低频LiDAR测距法,以完善运动估计并校正漂移。
- 也许在[78](A Simultaneous Localization and Mapping (SLAM) Framework for 2.5D Map Building Based on Low-Cost LiDAR and Vision Fusion)中提出了当前可用的最紧密的融合方法,其中使用考虑了激光和特征约束的特定成本函数进行了图优化。在此,激光数据和图像数据都可以获得机器人姿势估计。还建立了一个2.5D贴图来加速回环检测。
5.3 小结
综上所述,这些示例主要使用传感器融合为仅LiDAR或仅视觉的SLAM框架提供更多信息。 在实现这种SLAM的所有方法中(见图7),对混合框架的研究最少。 使用视觉信息和激光创建通用的SLAM框架似乎是一个真正的挑战。 更紧密耦合的LiDAR视觉传感器融合算法尚未在文献中进行全面研究,应进行研究。
VI 讨论未来的研究方向
经过对文献的回顾之后,似乎还不存在一种完全融合的视觉LiDAR方法,该方法利用了两种传感器模式的优势。我们声明,以紧密的混合方式将LiDAR功能用作视觉功能将使SLAM社区受益。确实,解决多模式,混合多约束MAP问题将是可行的。这样的解决方案将使SLAM对环境条件(例如光照或天气)更加健壮。众所周知,
- V-SLAM在恶劣的照明条件或无纹理的环境下无法工作,但LiDAR SLAM可以。
- 另一方面,LiDAR-SLAM在雨天条件下(检测到错误的撞击)或在基于摄像头的SLAM可以完美工作的有纹理但不明显的几何区域(空旷的区域,很长的走廊)中表现不佳。
我们建议在多约束MAP方法中使用一组来自不同模式(例如L = fLvision,LLiDARg)的不同提取地标来研究一些混合方法(请参见图8)。
所提出的框架遵循经典的SLAM体系结构(如我们在[24]中提出的那样),主要包括三个步骤:
- (1)数据处理步骤,对两种模态执行特征检测和跟踪;
- (2)估算步骤,该步骤首先从跟踪的特征估算出车辆的位移(这可以通过ICP,对极几何,本体感受传感器或它们的融合来完成,例如卡尔曼滤波器或多准则优化),然后尝试检测和匹配地图中的地标和要素;一旦完成匹配,就可以对姿势进行优化(过滤/优化),最后可以估算出新的地标。最后一步
- (3)处理全局映射(建图):当前数据是否定义了关键帧(它是否带来了足够的新信息),并且根据对循环闭合的检测,它是局部还是全局优化轨迹?为了使该框架正常工作,
必须主要努力
- (1)用于特征检测的LiDAR扫描分析和
- (2)Camera-LiDAR校准过程。
一旦找到针对这两个问题的精确解决方案,LiDAR和视觉之间的紧密耦合将在数据级别成为可能,从而使状态估计更加准确。
VII 结论
研究人员已经进行了各种研究,以找到SLAM的最佳实施方案。事实证明,自主机器人有可能同时估计其自身的姿态和周围环境的地图,SLAM仍然是机器人技术中充满希望和令人兴奋的研究课题。从理论上讲,它是自主导航的完整解决方案。但是,实际上,会发生许多问题。即使这似乎是一个非常有前途的解决方案,我们能否预测SLAM的发展可以在多大程度上带来真正的自主导航?因此,有必要加深对SLAM及其对人工智能移动机器人的贡献的理解。
这时,存在一些使用与IMU混合的视觉传感器的强大而有效的解决方案。如今,这种方法主要在基于虚拟或增强现实的工业应用中使用。 RGB-D摄像机是一个热门话题,但是这种传感器在室外环境(环境光严重干扰检测)的情况下效果不佳。视觉方法容易漂移,并且对环境中缺少显着特征非常敏感。为了克服室内单调环境中缺少特征的缺点,已经研究了诸如线,线段或边线之类的几何特征。
这样的landmarks 的主要问题是
- (1)缺少用于匹配阶段的准确描述符,以及
- (2)几乎没有检测到的对应3D对象的困难的初始化阶段。
结果,由于特征不匹配或初始化错误,环境的3D稀疏表示不太准确。最后,使用不同种类的地标表示生成一些混合地图。然后使用这些不同的对象和观测值解决了广义的多约束MAP问题。
另一方面,基于LiDAR的SLAM也存在并且提供了很好的解决方案。 LiDAR方法可提供非常准确的环境3D信息,但通常很耗时,并且仍依赖于非常简单且不太鲁棒的扫描匹配方法。目前,很少有作品通过提取一些3D界标来处理3D扫描的分析。没有一种使用3D LiDAR的SLAM方法以与基于视觉的框架类似的方式处理地标。原因是分析和提取LiDAR标志所需的处理时间。
目前,唯一使用LiDAR-SLAM方法的是飞机?。但是,飞机在天然的室外环境中并不是很有用,因为天然的室外环境自然没有很好的结构。基于LiDAR的SLAM主要基于ICP等扫描匹配方法。自30年前发明以来,这种算法几乎保持不变。
人们已经进行了一些将LiDAR和视觉传感器耦合的实验,但是所有这些实验都处于非常松散的融合水平。融合主要是利用两个测距步骤的结果完成的,这意味着LiDAR检测或视觉检测无法互相帮助,并且在融合相对位移估算的最后一步做出了决定。其他方法仅使用LiDAR的深度测量来直接初始化视觉特征。再一次,激光雷达的功能完全没有得到充分利用。
在未来的工作中,我们将研究使用传感器融合的SLAM的紧融合实现。通过将摄像机的帧融合到LiDAR的点云,我们期望构建一个健壮且低漂移的SLAM框架。此外,随着LiDAR价格多年来不断下降,我们预计随着时间的推移,这种解决方案将变得低成本。
参考:【综述】视觉和激光雷达融合SLAM | 传统方法| 最新2020
还没有评论,来说两句吧...