构建通用可泛化的自动驾驶世界模型

智猩猩AI新青年讲座自动驾驶专题 2024/10/25 19:00:00

课程讲师

高深远香港科技大学在读博士、上海AI Lab OpenDriveLab实习研究员

香港科技大学在读博士，研究兴趣主要围绕具身场景中的世界模型。曾在CVPR、NeurIPS、ECCV以第一作者身份发表多篇论文，并担任TPAMI、ICLR、NeurIPS、CVPR等期刊会议的审稿人。

高深远

香港科技大学在读博士、上海AI Lab OpenDriveLab实习研究员

课程提纲

1、世界模型的概念及其重要性
2、现有自动驾驶世界模型及其局限性
3、大规模自动驾驶长视频数据集OpenDV-2K
4、高质量可控的自动驾驶世界模型Vista
5、现存挑战与未来展望

课程简介

世界模型被业内认为是通往自动驾驶的唯一解。世界模型是真实世界的模拟，可以根据控制指令预测对应的未来并反馈给决策过程，从而有效地帮助智能体的训练和测试。

上海人工智能实验室OpenDriveLab联合香港科技大学等研究人员构建了迄今为止最大的公共驾驶数据集OpenDV-2K，其中包含超过2000小时的驾驶视频，比广泛使用的nuScenes数据集大374倍。基于OpenDV-2K还构建了自动驾驶领域中第一个大规模视频预测模型GenAD。该模型通过新颖的时间推理模块处理驾驶场景中的挑战性动态情况，超越了一般或驾驶特定的视频预测模型，在真实世界驾驶应用中的巨大潜力。与GenAD相关的论文收录于CVPR 2024 Highlight。

此外，针对现有的驾驶世界模型在泛化到未见环境、关键细节的预测保真度以及灵活应用的动作可控性方面存在的局限性。香港科技大学联合上海人工智能实验室OpenDriveLab等研究人员又提出一种高质量可控的通用自动驾驶世界模型Vista。与Vista相关的论文收录于NeurIPS 2024。

Vista能够在高时空分辨率下预测逼真的未来，通过捕捉动态和保持结构的两种新损失函数，以及详尽的动态先验以维持长时间滚动预测的一致性，其预测保真度得到了极大提升。此外，Vista的动作可控性还可以在零样本的情况下泛化到不同领域。

Vista在多个数据集上进行了全面的实验，验证了其有效性。它优于最具竞争力的通用视频生成工具，并在nuScenes数据集上设立了新的最先进水平。实验证据表明，Vista可以用作评估动作的奖励函数(reward function)。

10月25日晚7点，智猩猩邀请到香港科技大学在读博士、上海AI Lab OpenDriveLab实习研究员高深远参与「智猩猩自动驾驶新青年讲座」第40讲，主讲《构建通用可泛化的自动驾驶世界模型》。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...