面向自动驾驶的3D密集描述与闭环规划智能体

智猩猩AI新青年讲座自动驾驶专题 2024/07/11 19:00:00

课程讲师

郑宇鹏理想汽车实习研究员

中科院自动化所在读博士，师从张启超副研究员和赵冬斌研究员，研究方向为自动驾驶感知规划等；曾在ICRA、ECCV、CVPR、RAL等顶级会议期刊发表多篇论文。

郑宇鹏

理想汽车实习研究员

课程提纲

1、密集描述任务简介
2、自动驾驶场景3D密集描述任务TOD3Cap
3、Mid-to-mid闭环规划任务简介
4、基于MLLM的自动驾驶闭环规划智能体PlanAgent
5、总结与未来展望

课程简介

在自动驾驶领域里，针对3D场景的正确理解是非常重要的。目前对于室内场景采用3D密集字幕生成取得了很好的进展，在室外场景中却存在很大的局限性，不仅因为室内、外场景之间存在域差距，还因为当前缺乏针对室外场景的具有全面框-字幕对标注的数据。

基于当前问题，理想汽车联合中科院自动化所等研究人员提出一种室外3D密集描述任务TOD3Cap。该任务输入为LiDAR点云和全景相机组拍摄的一组RGB图像，期望输出为一组带字幕的物体框。与TOD3Cap相关的论文收录于 ECCV 2024 上。

为了解决这一任务，该团队提出了TOD3Cap网络，利用BEV表示生成物体框提议，集成了Relation Q-Former和LLaMA-Adapter生成这些物体的丰富字幕。同时，还引入了TOD3Cap数据集，这是目前用于室外场景中3D密集字幕的最大的数据集，包含850个场景中64.3K个室外物体的2.3M个描述。

轨迹规划是自动驾驶的核心模块之一，LLM的发展为规矩规划开辟了新的可能性。然而，研究者们在尝试利用LLM强大的推理能力增强自动驾驶算法的规划和控制能力面临着诸多问题：（1）实验环境未能基于真实闭环场景（2）使用过量的坐标数字表示地图细节或运动状态，大大增加了所需的词符(token)数量；（3）由LLM直接生成轨迹点难以确保安全。

针对当前问题，理想汽车联合中科院自动化所等研究人员又提出了一种新的基于多模态大语言模型MLLM的自动驾驶闭环规划框架—PlanAgent。

该方法以场景的鸟瞰图和基于图的文本提示为输入，利用多模态大语言模型的多模态理解和常识推理能力，进行从场景理解到横向和纵向运动指令生成的层次化推理，并进一步产生规划器所需的指令。论文中设计了三个模块来解决自动驾驶中的复杂问题：

1）场景信息提取模块(Environment Transformation module)：为了实现高效的场景信息表示，设计了一个环境信息提取模块，能够提取具有车道信息的多模态输入。

2）推理模块(Reasoning module)：为了实现场景理解和常识推理，设计了一个推理模块，该模块利用多模态大语言模型MLLM生成合理且安全的规划器代码。

3）反思模块(Reflection module)：为了保障安全规划，设计了一个反思机制，能够通过仿真对规划器进行验证，过滤掉不合理的MLLM提案。

PlanAgent在大规模且具有挑战性的nuPlan基准上进行了测试，实验表明PlanAgent在常规场景和长尾场景上都取得了最好(SOTA)性能。与常规大语言模型(LLM)方法相比，PlanAgent所需的场景描述词符(token)量仅为1/3左右。

7月11日晚7点，智猩猩邀请到理想汽车实习研究员、中国科学院自动化研究所在读博士郑宇鹏参与「智猩猩自动驾驶新青年讲座」第36讲，主讲《面向自动驾驶的3D密集描述与闭环规划智能体》。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...