智猩猩

SE-ProPillars | 一个具备鲁棒性的实时3D目标检测方法

分类： AI技术

2022-07-21 12:21:34

这项工作旨在通过专注于使用路边激光雷达对环境的 3D 感知来应对自动驾驶的挑战。作者设计了一个 3D 目标检测模型，可以实时检测路边 LiDAR 中的交通参与者。本文的模型使用现有的 3D 检测器作为基线并提高了其准确性。

为了证明所提出的模块的有效性，作者在3个不同的车辆和基础设施数据集上训练和评估模型。为了展示本文所提检测器的领域适应能力，作者在来自中国的基础设施数据集上对其进行训练，并在德国记录的不同数据集上进行迁移学习。作者对检测器中的每个模块进行了几组实验和消融研究，实验结果表明本文的模型在很大程度上优于基线，而推理速度为 45 Hz（22 ms）。

通过基于 LiDAR 的 3D 检测器做出了重大贡献，该检测器可用于智慧城市应用，为自动驾驶车联网提供具有深远意义的视野。连接到路边传感器的车辆可以获得拐角处其他车辆的信息，以改进其路径和机动规划，进而提高道路交通安全。

本文方法

本文设计了一个实时 LiDAR-only 3D 目标检测器（SE-ProPillars），可以应用于现实世界的场景。设计的 SE-ProPillars 模型的架构如图 1 所示。

2.1、Point Cloud Registration

首先为安装在基础设施上的 LiDAR 设计了一种点云配准算法，以增加点密度并促进检测任务。

这里将2台 Ouster OS1-64 激光雷达并排安装（彼此相距约 13 m）在龙门桥上。2个 LiDAR 都使用 ROS 进行时间同步，ROS 时间本身与 NTP 时间服务器同步。一台 LiDAR 被视为源 ()，另一台被视为目标 ()。2个 LiDAR 传感器都捕获 N 次点云扫描，每次扫描都标有 Unix 时间戳：和。目标是通过将源点云转换为目标点云的坐标系，将两个点云置于同一个坐标系中。

为了实现这一点，需要找到一组对应对和，其中对应于。然后通过最小化对应之间的均方根误差 (RMSE) 来估计包括旋转 R 和平移 t 的刚性变换 T。

受前人工作的启发，作者提供了一个初始变换矩阵来帮助配准算法更好地克服局部最优。初始变换是通过实时运动学 (RTK) GPS 设备获得的。通过这种初始变换，连续配准不太可能陷入局部最优。连续配准是通过点对点ICP完成的。在 Intel Core i7-9750H CPU 上，两台以 10 Hz 运行的 Ouster LiDAR 的注册过程需要 18.36 毫秒。使用 2 m 的voxel大小可以实现 0.52164 的 RMSE。图 4 显示了配准前后的点云扫描。

2.2、Voxelization

这里将原始点云划分为vertical pillars，然后将它们输入神经网络。这些是不沿vertical轴分割的特殊voxels。与voxels相比，pillars有几个优点。由于网格单元较少，基于pillars的主干比基于voxels的主干更快。耗时的 3D 卷积中间层也被淘汰，取而代之的是 2D 卷积。

这里也不需要沿 z 方向超参数手动调整 bin 大小。如果pillars包含的点多于阈值中指定的点，则使用最远点采样将这些点二次采样到阈值。如果pillars包含的点数少于阈值，则用零填充以使维度一致。由于稀疏问题，大多数pillars都是空的。这里根据pillars的中心记录非空pillars的坐标。在特征提取过程中不考虑空pillars，直到所有pillars都被分散回伪图像以进行 2D 卷积。

2.3、Stacked Triple Attention

Stacked Triple Attention 模块用于更鲁棒和有区别的特征表示。该模块最初是在 TANet 中引入的，它增强了对难以检测的对象的学习，并更好地处理了嘈杂的点云。TA 模块使用 point-wise、channel-wise 和 voxel-wise attention 提取每个pillars内部的特征。本模块中的注意力机制遵循 Squeeze-and-Excitation 模式。

Triple Attention module的结构如图5所示。模块的输入V是一个P×N×C张量，其中P是非空pillars的数量，N是最大点数每个pillars，C 是输入的point-wise特征的维度。

在上分支的point-wise注意力中，遵循 Squeeze-and-Excitation 模式，首先执行最大池化以聚合通道维度上的point-wise特征，然后使用两个完全连接层。

类似地，中间分支 channel-wise attention 在它们的 point-wise 维度上聚合 channel-wise 特征，得到 channel-wise attention 分数 T。然后 S 和 T 通过 element-wise 乘法组合，然后用 sigmoid 函数得到注意力尺度矩阵 M，M = σ(S×T)。然后将 M 与输入 V 相乘，得到特征张量 F1。

在底部分支voxel-wise attention中，F1 中的 C-dim 通道特征被voxel中心（pillars所有点的算术平均值）放大到 C + 3-dim，以获得更好的voxel感知。然后放大的 F1 被送入2个全连接层。2个FC层分别将point-wise和channel-wise维度压缩为1，得到voxel-wise attention score。最后，一个 sigmoid 函数生成voxel注意力尺度 Q，与原始 F1 相乘以生成 TA 模块 F2 的最终输出。

为了进一步利用多级特征注意力，作者将2个triple attention modules堆叠在一起，其结构类似于 ResNet 中的 skip connections（见图 6）。

第一个模块将原始点云作为输入，而第二个模块处理提取的高维特征。对于每个 TA 模块，输入被连接或求和到输出以融合更多的特征信息。每个 TA 模块后面都有一个全连接层，以增加特征维度。在 TA 模块内部，注意力机制仅重新加权特征，但不增加它们的维度。

2.4、Pillar Feature Net

这里作者选择 PointPillars 作为基线，以牺牲推理时间为代价提高其 3D 检测性能。在没有 TensorRT 加速的情况下，PointPillars 的推理速度为 42 Hz。由于速度和准确性之间存在权衡，可以通过合并额外的模块来进一步提高准确性，而不会过多牺牲推理速度。

由图 1 所示的pillar feature net（PFN）。将pillars作为输入，提取pillars特征，并将pillars分散回伪图像，用于中间层的 2D 卷积操作。pillars特征网络充当堆叠triple attention modules的附加特征提取器。来自具有形状 (P × N × C) 的堆叠 TA 模块的逐点pillars组织特征被馈送到一组 PFN 层。每个 PFN 层都是简化的 PointNet，它由线性层、Batch-Norm、ReLU 和最大池化组成。最大池化特征连接回 ReLU 的输出，以保持每个pillars的逐点特征维度，直到最后一个 FPN 层。最后一个 FPN 层进行最终的最大池化并输出 (P × C) 特征作为pillars特征。然后将pillars特征散射回原始pillars位置，形成（C×H×W）伪图像，其中H和W是pillars网格的高度和宽度。这里空pillars的位置用零填充。

2.5、Attentive Hierarchical Middle Layers

作者将 PointPillars 的主干与 Attentive Hierarchical Backbone 交换，以对来自pillars特征网络的伪图像执行 2D 卷积。图 7 描绘了attentive hierarchical中间层的结构。

在第一阶段，伪图像的空间分辨率通过3组卷积逐渐下采样。每组包含3个卷积层，其中第一个卷积层的stride为 2 用于下采样，随后的2个层仅用于特征提取。在下采样之后，应用反卷积操作来恢复空间分辨率。反卷积层（用星号标记）以stride=2 恢复特征图的大小，并按元素将它们添加到上分支。其余3个反卷积层使所有3个分支具有相同的大小（原始特征图的一半）。然后最后的3个特征图通过一个 attentive addition组合在一起，以融合空间和语义特征。注意力加法使用普通注意力机制。所有3个特征图都通过卷积操作，并按通道连接为注意力分数。softmax 函数生成注意力分布，并将特征图与相应的分布权重相乘。最后的元素加法给出了最终的注意力输出一个（C×H/2×W/2）特征图。

2.6、Multi-task Head

多任务头输出最终类（基于置信度分数）、3D 框位置（x、y、z）、尺寸（l、w、h）、旋转（θ）和检测到的目标的方向。方向（前/后）进行分类，以解决正弦误差损失无法区分翻转框的问题。4个卷积层分别对特征图进行操作。图 1 显示了右下角的多任务头的简要结构。4个头之一是 IoU 预测头，它预测GT边界框和预测框之间的 IoU。它是在 CIA-SSD 中引入的，用于处理预测的边界框和相应的分类置信度图之间的错位。错位主要是因为这两个预测来自不同的卷积层。基于这个 IoU 预测，使用置信度函数 (CF) 来校正置信度图，并使用距离变化 IoU 加权 NMS (DI-NMS) 模块对预测的边界框进行后处理。

距离变量 IoU 加权 NMS 旨在处理长距离预测，以更好地将远边界框与GT对齐，并减少误报预测。如果预测的框接近透视原点会为那些具有高 IoU 的框预测赋予更高的权重。如果预测框距离较远给予相对统一的权重，以获得更平滑的框。

2.7、Shape-Aware Data Augmentation

数据增强已被证明是一种有效的方法，可以更好地利用训练数据集并帮助模型更加泛化。使用 SE-SSD 提出的Shape-Aware数据增强方法（见图8）。

该模块简化了对同一类中对象的部分遮挡、稀疏和不同形状的处理。GT框分为6个金字塔子集。然后使用3个操作独立地扩充每个子集，随机dropout、随机swap和随机sparsifying。

在Shape-Aware增强之前也应用了一些传统的增强方法，例如 旋转、翻转和缩放。

2.8、Self-Ensembling Training Framework

此外，作者引入自集成训练框架进行后训练：首先训练图 9 所示的模型但没有自集成模块，然后将预训练的模型作为教师模型进行训练具有相同网络结构的学生模型。

教师模型的预测可以用作soft targets。结合来自GT的hard targets，这样便可以为学生模型提供更多信息。学生模型和教师模型使用相同的预训练参数进行初始化。在训练期间，首先将原始点云输入到教师模型并获得教师预测。然后将全局变换作为软目标应用于教师预测。对于hard targets，应用相同的全局变换以及形状感知数据增强。之后，将增强的点云提供给学生模型并获得学生预测。

在硬监督中引入了Orientation-aware distance-IoU(OD-IoU) 损失，以更好地对齐学生预测和hard targets之间的框中心和方向。与普通的 IoU 损失相比，OD-IoU 损失还考虑了2个框之间的距离和方向差异。

最后，使用基于 IoU 的匹配来匹配学生和教师的预测。使用分类分数和边界框预测的一致性损失来为学生模型提供软监督。训练学生模型的总体损失包括：