智猩猩

复旦提出PolarFormer，用极transformer实现多摄像头3D目标检测！

分类： AI技术

2022-07-22 16:45:41

arXiv上传2022年6月30日“PolarFormer: Multi-camera 3D Object Detection with Polar Transformers“，作者来自复旦大学张力教授团队。

自动驾驶中的3D目标检测旨在推理3D世界中感兴趣目标的“what”和“where”。现有的3D目标检测方法遵循以往2D目标检测的传统思路，通常采用垂直轴的标准笛卡尔坐标系。然而，这不符合自车透视几何性质，因为每个车载摄像机，都以径向（非垂直）轴成像几何楔形（wedge）内参，去感知世界。因此，本文提倡利用极坐标系，并提出一种极transformer（PolarFormer），以多摄像机2D图像作为输入，用于BEV空间更精确3D目标检测。

具体来说，设计一种不受输入结构形状限制、基于交叉注意的极检测头（Polar detection head），用于处理不规则的极网格（Polar grids）。为了解决沿极距离维度（Polar's distance dimension）的无约束目标尺度变化，进一步引入一种多尺度极表征（Polar representation）学习策略。通过几何约束下序列到序列（seq-to-seq）的方式，该模型从相应图像观测的光栅化最佳利用极表征。在nuScenes数据集上的全面实验表明，PolarFormer显著优于最先进的3D目标检测方案，并且在BEV语义分割任务上具有竞争力。

3D目标检测是在无约束的真实场景中实现自主驾驶的一种能力，旨在预测3D世界中感兴趣的单目标位置、尺寸和方向。尽管有良好的成本优势，但基于多摄像机的3D目标检测仍然有特别大的挑战性。为了获得3D表示，通常利用密集深度估计，但不仅计算成本高，而且容易出错。

为了绕过深度估计，最近的方法利用基于查询（query）的2D检测，学习一组稀疏和虚拟嵌入，用于多摄像机3D目标检测，但无法有效建模目标之间的几何结构。通常，在2D或3D空间中采用垂直轴的经典笛卡尔坐标系。这在很大程度上受到所用卷积模型的限制。

相反，在自车的透视图中，每个摄像机下感知的物理世界，是摄像机成像几何楔形内参的形状，具有径向非垂直轴。考虑到这种成像特性，极坐标系应该比通常采用的笛卡尔坐标系更合适、更自然地用于3D目标检测。事实上，极坐标已在一些基于激光雷达的3D感知方法中得到利用。然而，由于卷积网络仅限于矩形网格结构和局部感受野，其在算法上受到限制。

在3D目标检测中，得到了一组N个单目视图，包括输入图像和摄像头内外参。PolarFormer的目标是从多个摄像机视图中学习有效的极BEV表征，以便在极坐标系中预测目标的位置、大小、方向和速度。

PolarFormer由以下部件组成：跨平面编码器首先生成每个输入图像的多尺度特征表示，具备一个跨平面注意机制，其中极查询（Polar queries ）处理输入图像在BEV生成3D特征。然后，极对齐（Polar alignment）模块聚集来自多个摄像机视图的极射线（Polar rays），生成结构化极图（Polar map）。此外，极BEV编码器（Polar BEV encoder）通过多尺度特征交互增强极特征（Polar features）。最后，极检测头对极图（Polar map）进行解码，并在极坐标系中预测目标。

为解决具有多粒度细节的无约束目标尺度变化问题，考虑了一种多尺度极BEV表征结构。不同尺度的图像特征有独特的跨平面编码器，并在共享极BEV编码器中相互交互。然后，多尺度极BEV图由极解码头（Polar decoder head）查询。PolarFormer的总体架构如图所示：

跨平面编码器的目标是将图像与极射线相关联。根据摄像机的几何模型，对于任何摄像机坐标(x(C), y(C), z(C))，转换到图像坐标(x(I), y(I))可以描述为：

对任何极BEV坐标

设fn,u,w表示来自第n摄像机、第u尺度和第w列的图像列，ṗn,u,w表示引入的相应极射线查询。跨平面注意力表述为：

沿方位（azimuth）轴叠加极射线特征pn,u,w，得到第n个摄像机和和第u个尺度的极特征图（即极BEV表征）pn,u为：

这种基于序列-到-序列交叉注意的编码器可以对几何成像进行先验编码，并隐式有效地学习深度的替代。

极对齐模块将极射线从不同的摄像机坐标转换为共享的世界坐标。以多视点极特征图和摄像机矩阵为输入，生成相干极BEV图，覆盖所有摄像机视图。具体来说，首先在柱坐标系中均匀生成一组三维点 G(P) = (ρ(P), φ(P), z(P)) 表示。然后将这些点投影到第n个摄像机的图像平面，检索极射线的索引如下：

第u个尺度的相干极BEV图如下生成：

极对齐模块通过沿z轴生成这些点来整合不同高度的特征。学习极坐标表征优于笛卡尔坐标，因为信息损失最小，与原始视觉数据的一致性更高。

利用多尺度特征图处理极坐标中的目标尺度变化。为此，极BEV编码器在相邻像素之间跨多尺度特征地图执行信息交换。形式上，设{Gu}为输入的多尺度极特征图，xˆ为每个查询元素q的参考点的归一化坐标，引入一个多尺度可变形注意模块，如下所示：

作为查询，多尺度特征图中的每个像素利用相邻像素和跨尺度像素的信息。这样在所有特征尺度上学习更丰富的语义。

极解码器解码上述多尺度极特征，在极坐标中进行预测。构造有变形注意的极BEV解码器。

与编码器的2D参考点不同，这里的参考点位于3D柱坐标中，当投影到BEV时，等同于极坐标。每个解码器层的分类分支输出置信度分向量，回归分支的关键学习目标是极坐标，而不是笛卡尔坐标，如图所示：

参考点（ρ，φ，z）在解码器中迭代细化。有了参考点，回归分支输出偏移量dρ、dφ和dz。方向θ和速度v的学习目标相对于目标的方位角，并分解除为正交分量θφ、θρ、vφ和vρ，定义如下：

将目标大小l、w和h回归为对数l、对数w和对数h。分别采用focal loss和L1 loss进行分类和回归。如图是生成多尺度极BEV图的示意图：

实验结果如下：