基于多模态思维链的端到端具身智能大模型EmbodiedGPT

课程回放

智猩猩AI新青年讲座具身智能专题 2024/02/29 19:00:00

课程讲师

穆尧香港大学在读博士

师从罗平教授，共在NeurIPS, ICML, ICLR, CVPR, IJCAI，IEEE TNNLS等顶会顶刊发表论文14篇, 累计发表文章20余篇, 曾获 ICCAS2020 大会最优学生论文奖，IEEE IV2021 最优学生论文提名奖等多项学术奖励, 于2021年在清华大学取得硕士学位，荣获香港博士政府奖学金，香港大学校长奖学金，国家奖学金，清华大学优秀硕士毕业生，清华大学优秀硕士论文奖等荣誉称号。研究方向: 具身智能、强化学习、机器人控制和自动驾驶。个人主页：yaomarkmu.github.io

穆尧

香港大学在读博士

课程提纲

1、具备多模态思维链的人类操纵视频文本数据集
2、基于多模态思维链的视觉语言预训练方法
3、面向开放世界的具身智能大模型
4、链接上层规划与底层动作执行的闭环范式

课程简介

具身智能任务要求机器人能够根据当前观测做出与任务对应的准确规划和可执行动作，并能同时完成具身规划、具身问答、具身控制等任务。

而现有的大模型在训练时主要使用互联网数据，缺乏直接从现实世界第一人称视角获取数据的能力，难以适应复杂的真实世界，与机器人有较大的domain gap。因此，赋予机器人实践学习的能力是迈向具身智能的关键。

当前具身智能正面临着三大核心挑战：

1）建立第一视角下灵活的具身认知系统；

2）实现高度灵活的环境自适应决策规划能力；

3）实现目标驱动的与物理世界的精确运动交互。

针对当前当前具身智能面临的挑战，香港大学在读博士穆尧及团队构建了一种EmbodiedGPT大模型，具有具身认知，具身规划和具身执行能力。与EmbodiedGPT相关论文收录于NeurIPS 2024顶会上。

首先，该论文构建了具备多模态思维链的人类操纵视频文本数据集EgoCOT；其次，提出了基于多模态思维链的视觉语言预训练方法，使模型具备根据视觉输入做出强相关的可执行性的强决策规划的能力；最后，基于自注意力机制，提取出当前视觉观测和planning中的具体sub-goal高度相关的特征，使模型具备仅通过少量示范数据即能够学会执行底层控制。

2月29日晚7点，智猩猩邀请到论文一作、香港大学在读博士穆尧参与「AI新青年讲座」235讲，主讲《基于多模态思维链的端到端具身智能大模型EmbodiedGPT》。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...