- 开课提醒

中国科学院自动化研究所博士生,北京智源研究院具身智能团队。主要研究方向为基于多模态大模型的具身智能。在CVPR,AAAI,MM等顶级会议上发表多篇论文。

中国科学院自动化研究所博士生,北京智源研究院具身智能团队。主要研究方向为基于多模态大模型的具身智能。在CVPR,AAAI,MM等顶级会议上发表多篇论文。
- 实现具身智能体的技术路线
- 具身大脑核心能力解析
- 大规模多维度时空训练数据
- 多阶段渐进式训练策略
- 多智能体协作任务展示及场景部署
近年来,LLM与VLM已成为实现通用人工智能(AGI)的核心驱动力。但如何从数智化(Digital Intelligence)迈向物理 AI(Physical Intelligence),让模型真正感知世界、理解具身任务并与真实环境进行交互,仍是实现AGI的一大瓶颈。
现有的具身基础模型往往是将LLM与VLM的能力扩展至具身场景,目前仍面临空间理解能力不足、时序建模薄弱、长链推理能力欠缺的三大核心问题。
为此,北京智源研究院RoboBrain团队提出面向真实物理环境的最新一代通用具身大脑RoboBrain 2.0,在上述三大核心问题上实现了全面突破,显著提升了机器人对复杂具身任务的理解与执行能力。该模型有两个版本:轻量级的RoboBrain 2.0–7B和全量级的RoboBrain 2.0–32B,能够满足不同资源条件下的部署需求。
目前,RoboBrain 2.0以及相关成果跨本体大小脑协同框架RoboOS 2.0已全面开源。
RoboBrain 2.0–32B在空间与时间推理基准测试中全面超越了包括谷歌Gemini 2.5 Pro、OpenAI GPT-4o-mini、Anthropic Claude-Sonnet-4在内的所有开源、闭源模型,达到了SOTA水平。
RoboBrain 2.0采用模块化编码器–解码器架构,统一了感知、推理与规划模块,以应对复杂的具身任务。模型整体架构如下图所示,通过四个核心组件处理多视角视觉观察与自然语言指令:
1、分词器(Tokenizer):处理文本/结构化输入;
2、视觉编码器(Vision Encoder):提取视觉特征;
3、多层感知机投影器(MLP Projector):将视觉特征映射至语言模型的词元空间;
4、基于Qwen2.5-VL初始化的语言模型作为主干网络。
与传统专注于通用视觉问答(VQA)的VLMs不同,RoboBrain 2.0在保持通用VQA能力的同时,专注于具身推理任务,包括:空间感知、时序建模和长链推理。该架构将高分辨率图像、多视角输入、视频帧、语言指令及场景图(Scene Graphs) 编码为统一的多模态词元序列,实现了全面综合的处理。
8月14日晚上7点,中国科学院自动化研究所在读博士生、北京智源研究院RoboBrain团队成员冀昱衡将参加「智猩猩AI新青年讲座具身智能专题」30讲,以《面向真实物理环境的通用具身大脑RoboBrain》为主题进行成果讲解。
