社区投稿
智猩猩AI整理
目前,数据匮乏已成为制约具身智能发展的核心瓶颈。与大模型能轻松获取海量文本数据不同,具身智能需整合视觉、运动、触觉等多模态异构数据,传统数据采集方法成本高昂且效率低下,合成数据成为具身智能发展的关键。
为此,上海人工智能实验室推出InternVerse具身数据平台,包括四大核心组件:
•InternDataEngine数据合成引擎:打通任务定义、场景构建到高效渲染的自动化数据合成流水线,8卡4090单日数据产能可达数百小时;
•InternVerse 3D模型资产平台:面向具身训练、数据合成与能力评测需求,提供大规模、多类型、可持续更新的3D模型开放资产;
•InternVerse空间智能数据平台:基于单目视频,即可完成从桌面级、房间级到街道级场景的高保真Real2Sim重建;
•InternVerse具身数据评估平台:对真机操作视频中的机器人运动姿态、任务推进情况与完成状态进行综合评估,可为强化学习提供密集、可靠的现实世界奖励信号。
基于上述四大核心组件,InternVerse具身数据平台进一步补齐此前发布的具身全栈引擎Intern-Robotics的数据基础设施能力,完善物理智能从数据供给到模型迭代的关键链路,支撑自主实验室等科学智能场景中具身模型的训练、评估与持续演进。
目前,InternVerse具身数据平台已生产覆盖数千种物体、数百类任务的百万级轨迹数据,成功应用于蚂蚁灵波、银河通用和智在无界等企业科研项目;开放4万+高质量3D模型资产,覆盖200余类常见类别,支持开发者一键下载;引入4000+小时机器人操作数据和互联网人类视频数据,满足多样化评测、测试与开发需求。

InternVerse具身数据平台的四大核心组件,加速数据生产
•InternDataEngine数据合成引擎代码仓库:https://github.com/InternRobotics/InternDataEngine
•InternVerse 3D模型资产平台链接:https://internrobotics.shlab.org.cn/asset
•InternVerse空间智能数据平台链接:https://internrobotics.shlab.org.cn/spatial-data-generation
•InternVerse具身数据评估平台链接:https://internrobotics.shlab.org.cn/rl-video-assess
01 数据生产:单日数据产能可达数百小时
数据生成能力是支撑模型训练与迭代的关键因素。InternVerse具身数据平台中的数据合成引擎InternDataEngine,深度融合InternData-A1的高保真物理交互能力与InternData-M1的语义逻辑生成能力,并由Nimbus框架提供底层效率加速,不仅能够生成亿级规模的机械臂操作数据,也打通了从任务定义、场景构建到高效渲染的自动化数据合成流程。
InternDataEngine具备三大核心能力:
•更真实的物理交互:支持刚体、流体、可形变物体、铰接物体等多类物理对象统一仿真,适配单臂、双臂、人形等多种机器人构型,可构建抓取、搬运到长时序复杂操作等多类任务,为模型泛化与Sim2Real提供更扎实的数据基础。
•更多样的数据生成:依托仿真引擎内部状态提取高质量 Ground Truth,并结合多维度的域随机化(如布局、纹理、结构与光照)拓展数据分布。最终生成精准、多样的操作数据,并同步导出边界框、分割掩码、关键点等丰富的多模态表征。
•更高效的大规模生产:依托 Nimbus 动态流水线并行技术,将规划、渲染、存储等环节拆分为异步阶段,实现 2–3 倍效率提升,并支持千卡级 GPU 集群长时间稳定运行,8卡4090单日数据产能可达数百小时。

InternDataEngine从任务定义、场景构建到数据生成的全自动合成流水线
基于InternDataEngine ,科研团队已产出覆盖数千种物体、数百类任务的百万级轨迹数据,并成功应用于蚂蚁灵波、银河通用和智在无界等企业,支撑了LingBot-VA、LDA-1B、Rethinking Visual-Language-Action Model Scaling等多项研究成果。
值得一提的是,在相同π₀架构下,使用InternDataEngine生成数据进行预训练的模型,在模拟任务中和真实场景中表现媲美基于真实π-dataset训练的官方模型,首次证明大规模合成数据可成为VLA预训练的重要资源。基于该引擎训练得到的InternVLA-A1与InternVLA-M1,在RoboTwin 2.0、SimplerEnv、LIBERO等公开操作基准上达到国际领先水平,并在真实复杂场景与长程任务中展现出更强的指令跟随与未见物体泛化能力。
•InternDataEngine使用文档:https://internrobotics.github.io/InternDataEngine-Docs/
•Nimbus 具身合成数据生成框架:https://github.com/DeepLink-org/Nimbus
•数据集下载:
· InternData-A1:https://huggingface.co/datasets/InternRobotics/InternData-A1
· InternData-M1:https://huggingface.co/datasets/InternRobotics/InternData-M1
02 资产供给:涵盖4万+高质量三维资产库
支撑数据生成长期运转的,是统一、可复用、可扩展的资产与空间数据底座。围绕这一需求,上海AI实验室科研团队在InternVerse具身数据平台中构建了InternVerse 3D模型资产平台与InternVerse空间智能数据平台,分别面向结构化三维资产开放与真实场景空间转化两类核心需求。
InternVerse 3D模型资产平台面向具身训练、数据合成与能力评测需求,提供大规模、多类型、可持续更新的3D模型开放资产。平台首期开放4万+高质量刚体、铰接物体及具身场景3D模型,覆盖200余类常见类别,支持USD、URDF、GLB等多种主流格式。平台中的3D模型均经过标准化处理与结构化标注,具备质量、尺寸、材质、类别、文本描述等关键信息,其中,铰接物体还额外人工标注了每个关节的刚度和阻尼。与此同时,平台支持开发者浏览、检索、筛选与批量下载,助力高效完成资产获取与场景构建。

InternVerse 3D模型资产平台资产类别
开发者可使用线上平台查询已开放资产,快速浏览、查找,并支持下载至本地使用
InternVerse空间智能数据平台面向真实世界场景数据供给,致力于将现实世界视频高效转化为可用于训练、仿真与评测的高质量空间场景。平台融合流式重建与生成能力,仅凭单目视频即可完成从桌面级、房间级到街道级场景的高保真Real2Sim重建,兼顾几何精度、视觉质量与生成效率。接下来,平台还将结合InternDataEngine上线「导航数据生成」功能,可持续生产高质量空间数据,为视觉语言导航、世界模型构建等任务提供稳定的数据供给能力。
开发者上传本地录制视频,即可快速完成三维重建,获取高精度场景模型
03 评估反馈:构建模型在真实世界中持续学习闭环
如果说数据生成解决的是“数据如何生产”,资产供给解决的是“数据从何而来”,那么评估反馈解决的就是“模型如何在真实场景中持续优化”。
面向真实世界机器人学习过程中任务进度难评估、奖励信号稀疏、过程反馈不足等问题,科研团队进一步基于此前发布的VLAC模型,打造了InternVerse具身数据评估平台,面向真机操作视频提供细粒度评估能力。平台可结合输入视频与任务描述,对机器人运动姿态、任务推进情况与完成状态进行综合评估,输出过程奖励与完成情况预估,并识别异常与停滞行为。依托这一能力,平台既可为强化学习提供更密集、可靠的现实世界奖励信号,也可用于数据质量分析,支持模型开展模仿学习。
当前,平台已引入4000+小时机器人操作数据和互联网人类视频数据,并提供可视化交互界面与 API 接口,满足多样化评测、测试与开发需求。
开发者可使用网页或API上传具身机械臂视频,获取任务进度的密集评估,用于强化学习奖励信号或数据质量评估