


机器人动作规划的核心在于基于实时观测和任务指令,预测并完成一系列复杂的未来操作。然而,现有方法在应对复杂具身任务时存在通用视频生成模型缺乏对具身场景的针对性优化的局限性,以及视觉记忆泛化能力不足。
为此,智元机器人联合上海AI Lab、港中文、上交大等提出了全球首个具身4D世界模型EnerVerse。该模型能够通过自回归扩散模型,在生成未来具身空间的同时引导机器人完成复杂任务。其中,上海交通大学与上海AI Lab的联培博士生黄思渊为论文一作;智元机器人具身算法专家陈立梁为共同一作和项目负责人。
不同于现有方法简单应用视频生成模型,EnerVerse还引入稀疏记忆机制(Sparse Memory)与自由锚定视角(Free Anchor View,FAV),在提升4D生成能力的同时,实现了动作规划性能的显著突破。
在LIBERO基准对EnerVerse进行了测试。如下为视频生成结果,机器人能够准确完成拿起奶油芝士盒并放入篮子里的任务。
此外,为了评估EnerVerse在真实世界中的操作能力,设置了一系列实验。例如让机器人完成从桌子上拿一块黑色磁铁,放在第2行第1列的白色格子里。由于泡沫箱和桌子之间的视觉相似性,以及磁铁必须放在固定格子中,因此对精度要求较高。
实验结果表明,EnerVerse不仅具备卓越的未来空间生成能力,更在机器人动作规划任务中实现了当前最优(SOTA)表现。
2月11日晚7点,智猩猩邀请到论文一作、上海交通大学与上海AI Lab的联培博士生黄思渊参与「智猩猩AI新青年讲座具身智能专题」第20讲,以《具身4D世界模型EnerVerse》为主题带来直播讲解。
讲者
黄思渊,上海交通大学与上海AI Lab联培博士生
师从李鸿升教授。博士期间的研究课题为基于多模态大模型的具身智能研究。在CoRL、MM、 IROS、ECCV等顶级会议上,以第一作者或共同第一作者身份发表多篇论文。
第 20 讲
主 题
《具身4D世界模型EnerVerse》
提 纲
1、具身世界模型的应用场景
2、机器人动作规划在应对复杂任务时的挑战
3、基于自回归扩散模型的具身4D世界模型
4、利用EnerVerse生成4D空间并完成复杂任务
5、实验结果及分析
直 播 信 息
直播时间:2月11日19点
成果
论文标题
EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation
论文链接
https://arxiv.org/abs/2501.01895
项目地址
https://sites.google.com/view/enerverse
如何报名
有讲座直播观看需求的朋友,可以添加小助手“莓莓”进行报名。已添加过“莓莓”的老朋友,可以给“莓莓”私信,发送“具身智能20”进行报名。对于通过报名的朋友,之后将邀请入群进行观看和交流。
点个“在看”和大家一起聊聊
👇👇👇