盘点视觉SLAM技术在各领域的应用

当今科技发展速度飞快，想让用户在AR/VR、机器人、无人机、无人驾驶领域体验加强，还是需要更多前沿技术做支持，SLAM就是其中之一。实际上，有人就曾打比方，若是手机离开了WIFI和数据网络，就像无人车和机器人，离开了SLAM一样。

什么是SLAM

SLAM的英文全称是Simultaneous Localization and Mapping，中文称作“同时定位与地图创建”。

SLAM试图解决这样的问题：一个机器人在未知的环境中运动，如何通过对环境的观测确定自身的运动轨迹，同时构建出环境的地图。SLAM技术正是为了实现这个目标涉及到的诸多技术的总和。

SLAM通常包括如下几个部分，特征提取，数据关联，状态估计，状态更新以及特征更新等。

我们引用知乎上的一个解释把它翻译成大白话，就是：

当你来到一个陌生的环境时，为了迅速熟悉环境并完成自己的任务（比如找饭馆，找旅馆），你应当做以下事情：

a.用眼睛观察周围地标如建筑、大树、花坛等，并记住他们的特征（特征提取）

b.在自己的脑海中，根据双目获得的信息，把特征地标在三维地图中重建出来（三维重建）

c.当自己在行走时，不断获取新的特征地标，并且校正自己头脑中的地图模型（bundleadjustmentorEKF）

d.根据自己前一段时间行走获得的特征地标，确定自己的位置（trajectory）

e.当无意中走了很长一段路的时候，和脑海中的以往地标进行匹配，看一看是否走回了原路（loop-closuredetection）。实际这一步可有可无。

以上五步是同时进行的，因此是simultaneous localization and mapping。

传感器与视觉SLAM框架

智能机器人技术在世界范围内得到了大力发展。人们致力于把机器人用于实际场景：从室内的移动机器人，到野外的自动驾驶汽车、空中的无人机、水下环境的探测机器人等等，均得到了广泛的关注。

没有准确的定位与地图，扫地机就无法在房间自主地移动，只能随机乱碰；家用机器人就无法按照指令准确到达某个房间。此外，在虚拟现实（VirtualReality）和增强现实技术（ArgumentReality）中，没有SLAM提供的定位，用户就无法在场景中漫游。在这几个应用领域中，人们需要SLAM向应用层提供空间定位的信息，并利用SLAM的地图完成地图的构建或场景的生成。

当我们谈论SLAM时，最先问到的就是传感器。SLAM的实现方式与难度和传感器的形式与安装方式密切相关。传感器分为激光和视觉两大类，视觉下面又分三小方向。下面就带你认识这个庞大家族中每个成员的特性。

1.传感器之激光雷达

激光雷达是最古老，研究也最多的SLAM传感器。它们提供机器人本体与周围环境障碍物间的距离信息。常见的激光雷达，例如SICK、Velodyne还有我们国产的rplidar等，都可以拿来做SLAM。激光雷达能以很高精度测出机器人周围障碍点的角度和距离，从而很方便地实现SLAM、避障等功能。

主流的2D激光传感器扫描一个平面内的障碍物，适用于平面运动的机器人（如扫地机等）进行定位，并建立2D的栅格地图。这种地图在机器人导航中很实用，因为多数机器人还不能在空中飞行或走上台阶，仍限于地面。在SLAM研究史上，早期SLAM研究几乎全使用激光传感器进行建图，且多数使用滤波器方法，例如卡尔曼滤波器与粒子滤波器等。

激光的优点是精度很高，速度快，计算量也不大，容易做成实时SLAM。缺点是价格昂贵，一台激光动辄上万元，会大幅提高一个机器人的成本。因此激光的研究主要集中于如何降低传感器的成本上。对应于激光的EKF-SLAM理论方面，因为研究较早，现在已经非常成熟。与此同时，人们也对EKF-SLAM的缺点也有较清楚的认识，例如不易表示回环、线性化误差严重、必须维护路标点的协方差矩阵，导致一定的空间与时间的开销，等等。

2.、传感器之视觉SLAM

视觉SLAM是21世纪SLAM研究热点之一，一方面是因为视觉十分直观，不免令人觉得：为何人能通过眼睛认路，机器人就不行呢？另一方面，由于CPU、GPU处理速度的增长，使得许多以前被认为无法实时化的视觉算法，得以在10Hz以上的速度运行。硬件的提高也促进了视觉SLAM的发展。

以传感器而论，视觉SLAM研究主要分为三大类：单目、双目（或多目）、RGBD。其余还有鱼眼、全景等特殊相机，但是在研究和产品中都属于少数。此外，结合惯性测量器件（InertialMeasurementUnit，IMU）的视觉SLAM也是现在研究热点之一。就实现难度而言，我们可以大致将这三类方法排序为：单目视觉>双目视觉>RGBD。

单目相机SLAM简称MonoSLAM，即只用一支摄像头就可以完成SLAM。这样做的好处是传感器特别的简单、成本特别的低，所以单目SLAM非常受研究者关注。相比别的视觉传感器，单目有个最大的问题，就是没法确切地得到深度。这是一把双刃剑。

一方面，由于绝对深度未知，单目SLAM没法得到机器人运动轨迹以及地图的真实大小。直观地说，如果把轨迹和房间同时放大两倍，单目看到的像是一样的。因此，单目SLAM只能估计一个相对深度，在相似变换空间Sim(3)中求解，而非传统的欧氏空间SE(3)。如果我们必须要在SE(3)中求解，则需要用一些外部的手段，例如GPS、IMU等传感器，确定轨迹与地图的尺度（Scale）。

另一方面，单目相机无法依靠一张图像获得图像中物体离自己的相对距离。为了估计这个相对深度，单目SLAM要靠运动中的三角测量，来求解相机运动并估计像素的空间位置。即是说，它的轨迹和地图，只有在相机运动之后才能收敛，如果相机不进行运动时，就无法得知像素的位置。同时，相机运动还不能是纯粹的旋转，这就给单目SLAM的应用带来了一些麻烦，好在日常使用SLAM时，相机都会发生旋转和平移。不过，无法确定深度同时也有一个好处：它使得单目SLAM不受环境大小的影响，因此既可以用于室内，又可以用于室外。

余下全文 1/3

盘点视觉SLAM技术在各领域的应用

相关推荐