绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
面向真实物理环境的通用具身大脑RoboBrain
智猩猩AI新青年讲座具身智能专题 2025/08/14 19:00:00
课程讲师
冀昱衡 北京智源人工智能研究院 RoboBrain团队成员、中国科学院自动化研究所在读博士

中国科学院自动化研究所博士生,北京智源研究院具身智能团队。主要研究方向为基于多模态大模型的具身智能。在CVPR,AAAI,MM等顶级会议上发表多篇论文。

冀昱衡
北京智源人工智能研究院 RoboBrain团队成员、中国科学院自动化研究所在读博士

中国科学院自动化研究所博士生,北京智源研究院具身智能团队。主要研究方向为基于多模态大模型的具身智能。在CVPR,AAAI,MM等顶级会议上发表多篇论文。

课程提纲
  • 实现具身智能体的技术路线
  • 具身大脑核心能力解析
  • 大规模多维度时空训练数据
  • 多阶段渐进式训练策略
  • 多智能体协作任务展示及场景部署
课程简介

近年来,LLM与VLM已成为实现通用人工智能(AGI)的核心驱动力。但如何从数智化(Digital Intelligence)迈向物理 AI(Physical Intelligence),让模型真正感知世界、理解具身任务并与真实环境进行交互,仍是实现AGI的一大瓶颈。

现有的具身基础模型往往是将LLM与VLM的能力扩展至具身场景,目前仍面临空间理解能力不足、时序建模薄弱、长链推理能力欠缺的三大核心问题。

为此,北京智源研究院RoboBrain团队提出面向真实物理环境的最新一代通用具身大脑RoboBrain 2.0,在上述三大核心问题上实现了全面突破,显著提升了机器人对复杂具身任务的理解与执行能力。该模型有两个版本:轻量级的RoboBrain 2.0–7B和全量级的RoboBrain 2.0–32B,能够满足不同资源条件下的部署需求。

目前,RoboBrain 2.0以及相关成果跨本体大小脑协同框架RoboOS 2.0已全面开源。

RoboBrain 2.0–32B在空间与时间推理基准测试中全面超越了包括谷歌Gemini 2.5 Pro、OpenAI GPT-4o-mini、Anthropic Claude-Sonnet-4在内的所有开源、闭源模型,达到了SOTA水平。

RoboBrain 2.0采用模块化编码器–解码器架构,统一了感知、推理与规划模块,以应对复杂的具身任务。模型整体架构如下图所示,通过四个核心组件处理多视角视觉观察与自然语言指令:

1、分词器(Tokenizer):处理文本/结构化输入;

2、视觉编码器(Vision Encoder):提取视觉特征;

3、多层感知机投影器(MLP Projector):将视觉特征映射至语言模型的词元空间;

4、基于Qwen2.5-VL初始化的语言模型作为主干网络。

与传统专注于通用视觉问答(VQA)的VLMs不同,RoboBrain 2.0在保持通用VQA能力的同时,专注于具身推理任务,包括:空间感知、时序建模和长链推理。该架构将高分辨率图像、多视角输入、视频帧、语言指令及场景图(Scene Graphs) 编码为统一的多模态词元序列,实现了全面综合的处理。

8月14日晚上7点,中国科学院自动化研究所在读博士生、北京智源研究院RoboBrain团队成员冀昱衡将参加「智猩猩AI新青年讲座具身智能专题」30讲,以《面向真实物理环境的通用具身大脑RoboBrain》为主题进行成果讲解。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...