绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
BEVFormer:基于Transformer的自动驾驶BEV纯视觉感知
智猩猩AI新青年讲座 2022/06/15 19:00:00
课程讲师
李志琦 南京大学 IMAGINE LAB在读博士

导师为路通教授。主要研究方向为基于注意力机制的视觉感知,包括全景分割和自动驾驶感知。

李志琦
南京大学 IMAGINE LAB在读博士

导师为路通教授。主要研究方向为基于注意力机制的视觉感知,包括全景分割和自动驾驶感知。

课程提纲
  • BEV视觉感知的研究背景
  • 自动驾驶BEV感知的主流方案
  • BEVFormer利用时空Transformer学习BEV特征
  • 在地图分割等下游感知任务中的应用
课程简介

在自动驾驶中,对周围场景的视觉感知预计将根据多个摄像头提供的2D线索预测3D边框或语义图。最简单的解决方案是基于单目系统和跨摄像头的后处理。该框架的缺点是,需要单独处理不同的视图,无法跨摄像头捕获信息,导致性能和效率低下。

作为单目系统的替代方案,更统一的框架是从多摄像机图像中提取整体表示。BEV是一种常用的周围场景表示法,显示了目标的位置和尺度,并且适用于各种自动驾驶任务,如感知和规划。而目前生成BEV特征的主流BEV框架是基于深度信息,这种模式对深度值或深度分布的准确性很敏感。因此,基于BEV的方法的检测性能会受到混合误差的影响,不准确的BEV特征会严重损害最终性能。

南京大学IMAGINE LAB在读博士李志琦等人提出了一种基于Transformer和时序模型在鸟瞰图视角下优化特征的环视物体检测方案,即BEVFormer。

BEVFormer不依赖深度信息的BEV生成,可以自适应地学习BEV特征,而不是严格依赖3D先验知识。其中Transformer使用注意机制动态聚合有价值的功能,在概念上满足需求。同时,为了解决自动驾驶场景中的目标变化迅速问题,受递归神经网络(RNN)的启发,利用BEV特征反复传递历史时间信息,类似于RNN模型的隐状态。

在nuScenes上的实验结果表明了BEVFormer的有效性。在其他条件完全一致下,使用时序特征的BEVFormer比不使用时序特征的BEVFormer-S 在NDS指标上高7个点以上。尤其是引入时序信息之后,基于纯视觉的模型真正能够预测物体的移动速度,这对于自动驾驶任务来说意义重大。

6月15日,「AI新青年讲座」第126讲邀请到BEVFormer一作、南京大学IMAGINE LAB在读博士李志琦参与,主讲《BEVFormer:基于Transformer的自动驾驶BEV纯视觉感知》。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...