基于高斯世界模型的流式3D占用预测

智猩猩AI新青年讲座自动驾驶专题 2025/01/13 19:00:00

课程讲师

左思成清华大学智能视觉实验室（IVG）博士生

清华大学自动化系智能视觉实验室（IVG）博士生，主要研究方向是计算机视觉和自动驾驶。

左思成

清华大学智能视觉实验室（IVG）博士生

清华大学自动化系智能视觉实验室（IVG）博士生，主要研究方向是计算机视觉和自动驾驶。

课程提纲

1、自动驾驶中的时序建模方法
2、基于世界模型的感知任务范式
3、基于高斯世界模型的流式OCC预测
4、在世界模型与端到端自动驾驶上的思考

课程简介

时间输入对于3D占用预测非常重要，而现有方法大多遵循传统的感知、转换和融合流程。即给定顺序输入信息，感知模块独立获得每个帧的场景表示，例如BEV特征以及体素特征；并且转换模块根据自车轨迹对齐多帧的时序特征信息，融合模块融合对齐的特征表示以推断当前的3D占用情况。这些方法未能考虑驾驶场景演变的固有连续性和简单性。

为此，清华大学自动化系提出一个基于高斯世界模型的流式三维语义占用预测模型GaussianWorld，现已开源。与GaussianWorld相关的论文成果已投稿CVPR 2025，清华大学自动化系智能视觉实验室（IVG）博士生左思成为论文一作。

GaussianWorld采用显式3D高斯作为场景表示，而不是传统的隐式 BEV/Voxel 表示，这可以实现物体运动的显式和连续建模。给定历史 3D 高斯和当前视觉输入，GaussianWorld算法模型旨在预测场景如何演变并预测当前的占用情况。

为了证明提出的GaussianWorld算法模型的有效性，在nuScenes数据集上进行了大量实验。实验表明，GaussianWorld 可以有效地预测场景演变，并在不引入额外计算的情况下将单帧占用率预测提高 2% 以上（mIoU）。与现有方法相比，该模型在不引入额外计算开销的前提下，展示了SOTA的性能。

1月13日晚上7点，智猩猩邀请到论文一作、清华大学智能视觉实验室（IVG）博士生左思成参与「智猩猩新青年讲座自动驾驶专题」第42讲，主讲《基于高斯世界模型的流式3D占用预测》。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...