LMDrive：大语言模型加持的闭环端到端自动驾驶框架

智猩猩AI新青年讲座自动驾驶专题 2024/01/22 19:00:00

课程讲师

邵昊香港中文大学 MMLab在读博士

师从李鸿升教授和王晓刚教授，研究方向为端到端自动驾驶，多模态大语言模型，视频理解；曾在CVPR、CoRL、NeurIPS、RSS等顶级会议发表多篇论文；曾获2022年度CARLA端到端自动驾驶挑战赛冠军（sensor track），2020年度ActivityNet挑战赛冠军等。

邵昊

香港中文大学 MMLab在读博士

课程提纲

课程简介

自动驾驶领域的算法研究和落地应用已经取得了诸多显著进展，但这些近期的工作在遇到长尾事件和复杂城市驾驶场景时，仍存在一系列困难与挑战，甚至可能引发严重的驾驶事故。

更具体来说，以往的自动驾驶方法倾向于依赖有限格式的输入（例如传感器数据和导航点），限制了车辆理解语言信息和与人交互的能力。而大语言模型（LLM）相关的最新研究成果则展现出接近“通用人工智能”的能力，包含一系列令人印象深刻的知识理解和推理能力。因此，如何将二者有效结合就成为了一个值得探索的研究课题。

LMDrive 是香港中文大学、商汤科技，以及上海人工智能实验室（OpenDILab 团队）等机构的研究者们提出的第一个利用大语言模型进行闭环端到端自动驾驶的工作，结合了自然语言指令和多模态传感器数据，实现了复杂驾驶场景中准确且高效的导航和人机交互。

图片

LMDrive 主要从以下四个方面进行了深入的探索和研究：

1、提出全新的自动驾驶框架 LMDrive：这是一个端到端、闭环、基于语言控制的自动驾驶框架，能够通过多模态多视角传感器数据和自然语言指令与动态环境进行交互。

2、构建了约 64K 数据量的语言引导驾驶数据集：其中每个条目包含一条导航指令、几条提示指令、一系列多模态多视角传感器数据和车辆控制信号。每个数据片段的时长从 2 秒到 20 秒不等。

3、推出 LangAuto 基准测试框架：用于评估以语言指令为导航输入的自动驾驶Agent 性能，涵盖误导性/冗长指令和具有挑战性的对抗性驾驶场景。

4、进行广泛的闭环实验：通过实验验证所提出框架的有效性，并分析 LMDrive 的不同组成部分，为沿此方向的研究提供分析。

1月22日晚7点，「自动驾驶新青年讲座」第35讲邀请到 LMDriver 一作、香港中文大学 MMLab 在读博士邵昊参与，主讲《LMDrive：大语言模型加持的闭环端到端自动驾驶框架》。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

更多问题...