利用长视频生成模型释放端到端自动驾驶泛化性

智猩猩AI新青年讲座自动驾驶专题 2024/08/23 19:00:00

课程讲师

马恩慧理想汽车实习研究员、西湖大学和浙江大学联培博士

马恩慧博士目前是西湖大学和浙江大学联培项目的一年级博士生，硕士毕业于天津大学智算学部。她的研究方向包括可控视频生成，三维场景理解等，曾在ICCV学术会议上发表研究成果。

马恩慧

理想汽车实习研究员、西湖大学和浙江大学联培博士

课程提纲

课程简介

使用生成模型来合成新数据已成为自动驾驶领域解决数据稀缺问题的重要途径。然而现有方法虽能够提升感知模型的性能，但却未能改善端到端自动驾驶模型的规划性能，因为生成的视频通常少于8帧，且存在空间和时间的一致性的问题。

为此，理想汽车智驾团队联合西湖大学等提出了一种基于扩散模型的可控长视频生成的方法Delphi。与Delphi相关的论文目前正处于NeurIPS 2024的投稿阶段。其中，西湖大学助理教授于开丞老师为通讯作者，西湖大学和浙江大学联培博士、理想汽车实习研究员马恩慧为论文一作。

多视角长视频生成方法Delphi主要包括以下两个模块来提升一致性：1）具有跨多视图的共享噪声建模机制以增加空间一致性；2）特征对齐交互模块以实现精确的可控性和时间一致性。该方法能够生成多达40帧的视频而不失去一致性，约为现有最先进方法的5倍。

此外，该团队进一步设计了failure case驱动的框架来高效进行数据增强。通过多轮问询策略，结合VLM分析失败原因；利用定向多样化生成策略，结合使用Delphi的可控生成能力，定向生成与failure case相关的场景。

实验表明，Delphi生成的长视频质量更高，超越了现有最先进的方法。该方法通过仅生成训练集大小的4%数据，将碰撞率从0.33降低到0.27，改善了自动驾驶模型的感知和预测能力，并将端到端自动驾驶模型的规划性能提升了25%。

8月23日晚7点，智猩猩邀请到论文一作、西湖大学和浙江大学联培博士、理想汽车实习研究员马恩慧参与「智猩猩自动驾驶新青年讲座」第38讲，主讲《利用长视频生成模型释放端到端自动驾驶泛化性》。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

更多问题...