三维世界中的具身通用智能体LEO

课程回放

三维世界中的具身通用智能体LEO

智猩猩AI新青年讲座具身智能专题 2024/03/26 19:00:00

课程讲师

黄江勇北京大学在读博士

北京大学智能学院博士生，北京通用人工智能研究院实习研究员。师从黄思远博士和朱松纯教授。研究方向主要包括通用视觉、多模态学习、具身智能、视觉机器人。个人主页: https://huangjy-pku.github.io

黄江勇

北京大学在读博士

课程提纲

1、研究动机及背景
2、具身通用智能体LEO
3、视觉-语言-动作的综合指令微调数据集
4、实验结果及demo展示

课程简介

近年来，以DeepMind的Gato为代表的智能体以及以GPT-4V、LLaVA等为代表的多模态大语言模型在自然语言处理、视觉理解、机器人等任务上取得了显著的成果。

但是这类模型普遍基于二维图片文本数据训练得到，无法理解人类所处的三维物理世界，并缺乏与三维世界的交互能力。而想要实现通用人工智能，必须要构建一个能够理解人类生活的物理世界，并能够自主实现大量任务，具有情感和价值判断的智能体。为解决当前问题，北京通用人工智能研究院联合北京大学、卡内基梅隆大学和清华大学的研究人员提出了首个精通3D任务的具身智能体LEO。

具身智能体LEO以大语言模型为基础，具备强大的三维场景感知能力及优秀的视觉-语言-动作（VLA）能力，能够完成包括问答（3D QA）、描述（3D captioning）、具身推理（embodied reasoning）、具身导航（embodied navigation）、机器人操作（robotic manipulation）在内的多种任务。

此外，该团队还提出了生成高质量三维视觉语言数据的方法，构建了视觉-语言-动作（vision-language-action）指令微调的大规模数据集，用来支撑智能体的学习。

3月26日晚7点，智猩猩邀请到论文一作、北京大学在读博士、北京通用人工智能研究院实习研究员黄江勇参与「智猩猩机器人新青年讲座」第3讲，主讲《三维世界中的具身通用智能体LEO》。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...