面向真实物理环境的通用具身大脑RoboBrain

开课提醒

智猩猩AI新青年讲座具身智能专题 2025/08/14 19:00:00

课程讲师

冀昱衡北京智源人工智能研究院 RoboBrain团队成员、中国科学院自动化研究所在读博士

中国科学院自动化研究所博士生，北京智源研究院具身智能团队。主要研究方向为基于多模态大模型的具身智能。在CVPR，AAAI，MM等顶级会议上发表多篇论文。

冀昱衡

北京智源人工智能研究院 RoboBrain团队成员、中国科学院自动化研究所在读博士

课程提纲

实现具身智能体的技术路线
具身大脑核心能力解析
大规模多维度时空训练数据
多阶段渐进式训练策略
多智能体协作任务展示及场景部署

课程简介

近年来，LLM与VLM已成为实现通用人工智能（AGI）的核心驱动力。但如何从数智化（Digital Intelligence）迈向物理 AI（Physical Intelligence），让模型真正感知世界、理解具身任务并与真实环境进行交互，仍是实现AGI的一大瓶颈。

现有的具身基础模型往往是将LLM与VLM的能力扩展至具身场景，目前仍面临空间理解能力不足、时序建模薄弱、长链推理能力欠缺的三大核心问题。

为此，北京智源研究院RoboBrain团队提出面向真实物理环境的最新一代通用具身大脑RoboBrain 2.0，在上述三大核心问题上实现了全面突破，显著提升了机器人对复杂具身任务的理解与执行能力。该模型有两个版本：轻量级的RoboBrain 2.0–7B和全量级的RoboBrain 2.0–32B，能够满足不同资源条件下的部署需求。

目前，RoboBrain 2.0以及相关成果跨本体大小脑协同框架RoboOS 2.0已全面开源。

RoboBrain 2.0–32B在空间与时间推理基准测试中全面超越了包括谷歌Gemini 2.5 Pro、OpenAI GPT-4o-mini、Anthropic Claude-Sonnet-4在内的所有开源、闭源模型，达到了SOTA水平。

RoboBrain 2.0采用模块化编码器–解码器架构，统一了感知、推理与规划模块，以应对复杂的具身任务。模型整体架构如下图所示，通过四个核心组件处理多视角视觉观察与自然语言指令：

1、分词器（Tokenizer）：处理文本/结构化输入；

2、视觉编码器（Vision Encoder）：提取视觉特征；

3、多层感知机投影器（MLP Projector）：将视觉特征映射至语言模型的词元空间；

4、基于Qwen2.5-VL初始化的语言模型作为主干网络。

与传统专注于通用视觉问答（VQA）的VLMs不同，RoboBrain 2.0在保持通用VQA能力的同时，专注于具身推理任务，包括：空间感知、时序建模和长链推理。该架构将高分辨率图像、多视角输入、视频帧、语言指令及场景图（Scene Graphs）编码为统一的多模态词元序列，实现了全面综合的处理。

8月14日晚上7点，中国科学院自动化研究所在读博士生、北京智源研究院RoboBrain团队成员冀昱衡将参加「智猩猩AI新青年讲座具身智能专题」30讲，以《面向真实物理环境的通用具身大脑RoboBrain》为主题进行成果讲解。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...