- 课程回放
师从王立威教授。主要研究方向是通用视觉处理框架构建、3D视觉感知的网络结构设计。如何设计通用框架,从视觉角度来构建感知复杂物理世界的计算模型;如何设计高效、表达能力强且易于部署的3D网络来同时处理物理世界感知所需的多种模态信息,包括但不限于多视角2D图片和稀疏分布的3D点云。曾在NeurIPS, CVPR和ICCV顶会中发表多篇一作论文,并多次担任相关顶级期刊和会议审稿人。
- 1、3D通用感知模型研究背景及难点
- 2、高效易于部署的动态稀疏点云Transformer网络DSVT
- 3、用于BEV表征的统一高效多模态Transforme网络UniTR
- 4、基于图像渲染的预训练策略
- 5、未来研究方向的探索与思考
近年来,大模型的快速兴起正在革新自动驾驶、3D视觉等多个领域。自动驾驶决策、规划都需要对周围的3D环境有良好的建模能力。自动驾驶汽车需要通过接收多模态的3D数据,并建模处理这些异构数据,完成自动驾驶多种任务执行。
自动驾驶的3D感知数据主要由多视角摄像头图像和雷达点云构成,前者是密集2D图像,而后者是稀疏3D点云分布,如果用一种通用的框架处理则具有较大挑战。 目前的研究工作主要是用不同编码器分别串行处理各自模态,用一个复杂且耗时的后处理融合方式得到通用的特征表示。这种方式的运行速度较慢且没有解决模型处理多种模态的需求。
针对当前智驾行业所面临的困境,面向BEV感知的多传感器融合方式应运而生。将不同传感器采集的数据分别进行分析运算,再把各路分析结果融合到一个统一的BEV空间坐标系下生成鸟瞰图,能够有效地避免了误差叠加,满足多种模态需求。
在上述背景下,北京大学在读博士汪海洋及相关研究人员针对如何处理不同传感器的异构感知数据并学到通用的特征表示进行研究。首先从Transformer网络结构入手,设计针对点云且与图像领域适配的高效点云处理网络DSVT,该网络易于部署且性能在多个标准的benchmark上达到了SOTA。与DSVT网络相关的论文成果收录于CVPR 2023顶会上。
接着基于这一高效的点云网络DSVT进一步拓展,提出一种用于BEV表征的通用多模态3D网络UniTR。UniTR是第一次针对3D感知的多模态Transformer骨干网络,开创了统一且一致的多模态3D编码与融合新方案,可以对齐不同模态信息,为3D感知大模型打下坚实基础。与UniTR网络相关的论文成果收录于ICCV 2023顶会上。
此外,相关团队利用无监督学习构建点云预训练模型增加了视觉模块辅助进行预训练,提出了一种名为PRED的新型图像辅助的室外点云预训练框架。该框架的主要基于BEV特征图的条件语义渲染,利用图像的语义进行监督。大量实验证明,PRED在各种大规模数据集上为3D感知任务提供了显著优化。与PRED点云预训练框架相关的论文成果收录于NeurIPS 2023顶会上。
11月23日19点,「自动驾驶新青年讲座」第27讲邀请到北京大学在读博士汪海洋参与,主讲《面向BEV的3D通用感知大模型前置新方案》。