智猩猩

超越GR00T-N1.6！阿里高德提出机器人操作VLA模型ABot-M0，并开源600万+轨迹统一操作数据集

分类：社区来稿

2026-02-16 07:48:00

AMAP CV Lab团队投稿

智猩猩AI整理

机器人领域长期追求“One-Brain, Many-Forms（一个大脑，多种形态）”的通用智能体：在不同机器人本体、不同任务与不同场景下，依然具备可迁移、可泛化、可组合的操作能力。

现实瓶颈主要集中在三方面：

数据层：开源数据分散在不同平台与格式中，难以统一治理与复用；同时高质量动作标注成本高、积累慢。
表征层：不同数据集动作空间、坐标系、控制频率各异，导致跨本体学习难以对齐，模型容量被迫“记住差异”。
训练层：主流VLA 往往沿用 VLM 范式，但机器人操作需要更强的空间结构理解与稳定的动作生成目标，二者存在天然错配。

为此，阿里巴巴高德AMAP CV Lab团队发布 ABot-M0：一个面向机器人操作的 视觉-语言-动作（VLA）基础模型框架，以“数据治理 + 统一动作表征 + 新的动作学习范式 + 可插拔感知结构”为核心，提供一条从异构开源数据到高性能通用策略的系统化、可复现路径。ABot-M0在具身智能领域主流三大开源仿真评测基准Libero、Libero-Plus、RoboCasa中，平均任务成功率均实现SOTA。

论文标题：《 ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold 》Learning
论文链接：https://arxiv.org/abs/2602.11236
代码：https://github.com/amap-cvlab/ABot-Manipulation
项目主页：https://amap-cvlab.github.io/ABot-Manipulation

01 ABot-M0 的关键贡献（从数据到模型的完整闭环）

1. UniACT-dataset：统一、开源、超大规模的操作数据基座

AMAP CV Lab团队整合并治理 6 个主流开源数据集，构建 UniACT-dataset：目前非私有领域内规模领先的机器人操作混合数据集之一，覆盖 600 万+ 轨迹、9500+ 小时、20+ 机器人形态（embodiments）。其价值不只是“更大”，更是“可对齐、可训练、可迁移”。

2. Action Manifold Learning（AML）：面向机器人动作生成的学习范式升级

在动作生成上，ABot-M0 提出动作流形假说（Action Manifold Hypothesis）：有效、可执行、连续的机器人动作序列并不随机分布在高维空间中，而是受物理规律与任务约束影响，集中于一个低维、光滑的“动作流形”之上。

据此该团队设计 Action Manifold Learning（AML）：以 DiT（Diffusion Transformer） 为动作专家骨干，不再以预测噪声为核心目标，而是更直接地学习生成“可行、平滑、连续”的动作序列，从而在效率、稳定性与高维动作空间建模方面取得优势。