绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智东西公开课服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智东西公开课
三维世界中的具身通用智能体LEO
智猩猩机器人新青年讲座 2024/03/26 19:00:00
课程讲师
黄江勇 北京大学 在读博士

北京大学智能学院博士生,北京通用人工智能研究院实习研究员。师从黄思远博士和朱松纯教授。研究方向主要包括通用视觉、多模态学习、具身智能、视觉机器人。个人主页: https://huangjy-pku.github.io

黄江勇
北京大学 在读博士

北京大学智能学院博士生,北京通用人工智能研究院实习研究员。师从黄思远博士和朱松纯教授。研究方向主要包括通用视觉、多模态学习、具身智能、视觉机器人。个人主页: https://huangjy-pku.github.io

课程提纲
  • 1、研究动机及背景
  • 2、具身通用智能体LEO
  • 3、视觉-语言-动作的综合指令微调数据集
  • 4、实验结果及demo展示
课程简介

近年来,以DeepMind的Gato为代表的智能体以及以GPT-4V、LLaVA等为代表的多模态大语言模型在自然语言处理、视觉理解、机器人等任务上取得了显著的成果。

但是这类模型普遍基于二维图片文本数据训练得到,无法理解人类所处的三维物理世界,并缺乏与三维世界的交互能力。而想要实现通用人工智能,必须要构建一个能够理解人类生活的物理世界,并能够自主实现大量任务,具有情感和价值判断的智能体。为解决当前问题,北京通用人工智能研究院联合北京大学、卡内基梅隆大学和清华大学的研究人员提出了首个精通3D任务的具身智能体LEO。

具身智能体LEO以大语言模型为基础,具备强大的三维场景感知能力及优秀的视觉-语言-动作(VLA)能力,能够完成包括问答(3D QA)、描述(3D captioning)、具身推理(embodied reasoning)、具身导航(embodied navigation)、机器人操作(robotic manipulation)在内的多种任务。

此外,该团队还提出了生成高质量三维视觉语言数据的方法,构建了视觉-语言-动作(vision-language-action)指令微调的大规模数据集,用来支撑智能体的学习。

3月26日晚7点,智猩猩邀请到论文一作、北京大学在读博士、北京通用人工智能研究院实习研究员黄江勇参与「智猩猩机器人新青年讲座」第3讲,主讲《三维世界中的具身通用智能体LEO》。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...