- 课程回放
- BEV视觉感知的研究背景
- 自动驾驶BEV感知的主流方案
- BEVFormer利用时空Transformer学习BEV特征
- 在地图分割等下游感知任务中的应用
在自动驾驶中,对周围场景的视觉感知预计将根据多个摄像头提供的2D线索预测3D边框或语义图。最简单的解决方案是基于单目系统和跨摄像头的后处理。该框架的缺点是,需要单独处理不同的视图,无法跨摄像头捕获信息,导致性能和效率低下。
作为单目系统的替代方案,更统一的框架是从多摄像机图像中提取整体表示。BEV是一种常用的周围场景表示法,显示了目标的位置和尺度,并且适用于各种自动驾驶任务,如感知和规划。而目前生成BEV特征的主流BEV框架是基于深度信息,这种模式对深度值或深度分布的准确性很敏感。因此,基于BEV的方法的检测性能会受到混合误差的影响,不准确的BEV特征会严重损害最终性能。
南京大学IMAGINE LAB在读博士李志琦等人提出了一种基于Transformer和时序模型在鸟瞰图视角下优化特征的环视物体检测方案,即BEVFormer。
BEVFormer不依赖深度信息的BEV生成,可以自适应地学习BEV特征,而不是严格依赖3D先验知识。其中Transformer使用注意机制动态聚合有价值的功能,在概念上满足需求。同时,为了解决自动驾驶场景中的目标变化迅速问题,受递归神经网络(RNN)的启发,利用BEV特征反复传递历史时间信息,类似于RNN模型的隐状态。
在nuScenes上的实验结果表明了BEVFormer的有效性。在其他条件完全一致下,使用时序特征的BEVFormer比不使用时序特征的BEVFormer-S 在NDS指标上高7个点以上。尤其是引入时序信息之后,基于纯视觉的模型真正能够预测物体的移动速度,这对于自动驾驶任务来说意义重大。
6月15日,「AI新青年讲座」第126讲邀请到BEVFormer一作、南京大学IMAGINE LAB在读博士李志琦参与,主讲《BEVFormer:基于Transformer的自动驾驶BEV纯视觉感知》。