- 课程回放
三维世界中的具身通用智能体LEO
智猩猩机器人新青年讲座 2024/03/26 19:00:00
课程讲师
课程提纲
- 1、研究动机及背景
- 2、具身通用智能体LEO
- 3、视觉-语言-动作的综合指令微调数据集
- 4、实验结果及demo展示
课程简介
近年来,以DeepMind的Gato为代表的智能体以及以GPT-4V、LLaVA等为代表的多模态大语言模型在自然语言处理、视觉理解、机器人等任务上取得了显著的成果。
但是这类模型普遍基于二维图片文本数据训练得到,无法理解人类所处的三维物理世界,并缺乏与三维世界的交互能力。而想要实现通用人工智能,必须要构建一个能够理解人类生活的物理世界,并能够自主实现大量任务,具有情感和价值判断的智能体。为解决当前问题,北京通用人工智能研究院联合北京大学、卡内基梅隆大学和清华大学的研究人员提出了首个精通3D任务的具身智能体LEO。
具身智能体LEO以大语言模型为基础,具备强大的三维场景感知能力及优秀的视觉-语言-动作(VLA)能力,能够完成包括问答(3D QA)、描述(3D captioning)、具身推理(embodied reasoning)、具身导航(embodied navigation)、机器人操作(robotic manipulation)在内的多种任务。
此外,该团队还提出了生成高质量三维视觉语言数据的方法,构建了视觉-语言-动作(vision-language-action)指令微调的大规模数据集,用来支撑智能体的学习。
3月26日晚7点,智猩猩邀请到论文一作、北京大学在读博士、北京通用人工智能研究院实习研究员黄江勇参与「智猩猩机器人新青年讲座」第3讲,主讲《三维世界中的具身通用智能体LEO》。
精彩问答
提问
提问