- 课程回放
自动驾驶场景中深度、位姿、BEV布局估计的联合感知网络
自动驾驶新青年讲座 2022/10/12 18:00:00
课程讲师
课程提纲
- 深度、位姿和鸟瞰布局估计研究现状
- 自动驾驶联合感知网络的设计
- 端到端的多任务联合感知网络JPerceiver
- 实验分析及未来工作展望
课程简介
深度估计、位姿估计和BEV布局估计是自动驾驶场景感知的三个关键任务,也是运动规划和导航的基础。三个任务虽然相互补充,但通常是各自解决,很少同时处理这三个任务。一种简单的方法是就以顺序或并行的方式独立地完成。
然而这样的处理方式存在着很多问题,比如深度和位姿结果容易受到固有的尺度多义问题的影响;BEV布局通常单独估计道路和车辆,而忽略显式叠加-下垫关系;深度图是用于推断场景布局的有用几何线索,但实际上直接从前视图图像预测BEV布局,并没有使用任何深度相关信息。
在ECCV 2022上,来自澳大利亚悉尼大学陶大程教授团队和北京京东研究院的博士生赵海媚等人,提出一种联合感知框架JPerceiver来解决这些问题。JPerceiver从单目视频序列中同时估计尺度-觉察深度、位姿以及BEV布局,用跨视图几何变换(cross-view geometric transformation,CGT),根据精心设计的尺度损失,将绝对尺度从道路布局传播到深度和位姿。
同时,JPerceiver还设计一个跨视图和模态转换(cross-view and cross-modal transfer,CCT)模块,用深度线索通过注意机制推理道路和车辆布局。以端到端的多任务学习方式进行训练,JPerceiver中的CGT尺度损失和CCT模块可以促进任务间知识迁移,利于每个任务的特征学习。
10月12日晚6点,「自动驾驶新青年讲座」第9讲邀请JPerceiver一作、悉尼大学在读博士赵海媚参与,主讲《自动驾驶场景中深度、位姿、BEV布局估计的联合感知网络》。
精彩问答
提问
提问
