- 开课提醒
中国人民大学高领学院企业博士生导师,目前主要负责智源具身大脑大模型RoboBrain以及大小脑框架RoboOS,研究方向是具身智能、多模态大模型、深度学习、自然语言处理和机器学习等方向,曾就职于阿里巴巴达摩院以及快手科技大模型中台部门,主要负责大规模语音语义一体化等多模态交互系统以及多模态预训练项目,具有丰富的多模态大模型、文本大模型以及机器智能等产学经验。
中国人民大学高领学院企业博士生导师,目前主要负责智源具身大脑大模型RoboBrain以及大小脑框架RoboOS,研究方向是具身智能、多模态大模型、深度学习、自然语言处理和机器学习等方向,曾就职于阿里巴巴达摩院以及快手科技大模型中台部门,主要负责大规模语音语义一体化等多模态交互系统以及多模态预训练项目,具有丰富的多模态大模型、文本大模型以及机器智能等产学经验。
- 具身大脑RoboBrain概述
- 新增3D空间推理能力RoboTracer解析
- 新增动作时序价值评估能力Robo-Dopamine
- 真机实验效果展示
- 总结与未来发展方向
目前,具身智能基础模型已取得显著进展,能够根据自然语言指令和视觉观察,生成可执行的动作,但其在真实世界中的部署应用却频繁失败。当前的通用模型仍存在两大局限:在空间维度上,存在“度量盲”的问题;在时间维度上,模型大多以开环方式进行预测,无法在闭环中持续自主调整。
为此,北京智源人工智能研究院提出最新一代通用具身大脑模型RoboBrain 2.5。该模型在原有RoboBrain的基础上,新增了机器人对三维空间结构的理解推理,和动作时序价值评估的能力,对下游任务执行成功率有显著提升。代码与模型现已开源。
RoboBrain 2.5采用统一的视觉—语言多模态融合架构,通过单一技术框架整合机器人感知、认知、推理与决策的全链条能力。其核心架构基于Transformer模型优化,专门针对具身场景的多源数据处理进行了底层调整。
在三维空间结构的理解与推理方面,智源研究院联合提出一个三维感知的多模态大模型RoboTracer。该模型通过全参数微调(SFT)强化空间信息的精准理解,并进一步用强化学习微调(RFT)提升推理与泛化能力,最终在开放世界场景中实现可用的 3D 空间轨迹生成。
在动作时序价值评估方面,智源研究院联合提出最新成果机器人多巴胺Robo-Dopamine,通过步骤感知过程奖励模型,对每一个时间步的动作给出细致的价值评估,显著提高机器人对动作时序价值评估能力。
1月28日20点,全新策划推出的「智猩猩×智源研究院具身智能技术公开课」第1期将开讲,由RoboBrain 2.5项目负责人、北京智源人工智能研究院具身智能大模型负责人王鹏伟主讲,主题为《通用具身大脑RoboBrain 2.5最新突破与演进》。