BEVFormer：基于Transformer的自动驾驶BEV纯视觉感知

课程回放

智猩猩AI新青年讲座 2022/06/15 19:00:00

课程讲师

李志琦南京大学 IMAGINE LAB在读博士

导师为路通教授。主要研究方向为基于注意力机制的视觉感知，包括全景分割和自动驾驶感知。

李志琦

南京大学 IMAGINE LAB在读博士

导师为路通教授。主要研究方向为基于注意力机制的视觉感知，包括全景分割和自动驾驶感知。

课程提纲

BEV视觉感知的研究背景
自动驾驶BEV感知的主流方案
BEVFormer利用时空Transformer学习BEV特征
在地图分割等下游感知任务中的应用

课程简介

在自动驾驶中，对周围场景的视觉感知预计将根据多个摄像头提供的2D线索预测3D边框或语义图。最简单的解决方案是基于单目系统和跨摄像头的后处理。该框架的缺点是，需要单独处理不同的视图，无法跨摄像头捕获信息，导致性能和效率低下。

作为单目系统的替代方案，更统一的框架是从多摄像机图像中提取整体表示。BEV是一种常用的周围场景表示法，显示了目标的位置和尺度，并且适用于各种自动驾驶任务，如感知和规划。而目前生成BEV特征的主流BEV框架是基于深度信息，这种模式对深度值或深度分布的准确性很敏感。因此，基于BEV的方法的检测性能会受到混合误差的影响，不准确的BEV特征会严重损害最终性能。

南京大学IMAGINE LAB在读博士李志琦等人提出了一种基于Transformer和时序模型在鸟瞰图视角下优化特征的环视物体检测方案，即BEVFormer。

BEVFormer不依赖深度信息的BEV生成，可以自适应地学习BEV特征，而不是严格依赖3D先验知识。其中Transformer使用注意机制动态聚合有价值的功能，在概念上满足需求。同时，为了解决自动驾驶场景中的目标变化迅速问题，受递归神经网络（RNN）的启发，利用BEV特征反复传递历史时间信息，类似于RNN模型的隐状态。

在nuScenes上的实验结果表明了BEVFormer的有效性。在其他条件完全一致下，使用时序特征的BEVFormer比不使用时序特征的BEVFormer-S 在NDS指标上高7个点以上。尤其是引入时序信息之后，基于纯视觉的模型真正能够预测物体的移动速度，这对于自动驾驶任务来说意义重大。

6月15日，「AI新青年讲座」第126讲邀请到BEVFormer一作、南京大学IMAGINE LAB在读博士李志琦参与，主讲《BEVFormer：基于Transformer的自动驾驶BEV纯视觉感知》。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...