- 1、多模态理解与具身控制的意义
- 2、现有VLA训练范式及其面临的挑战
- 3、基于ChatVLA实现统一的多模态理解和具身控制
- 4、在真实家庭环境中的实验结果及分析
VLA (Vision Language Action) 是一种结合了视觉、语言和动作三种能力的多模态机器学习模型,旨在实现从感知输入直接映射到机器人控制动作的完整闭环能力。最早是Google DeepMind在RT-2中提出的一种全新概念。近年来VLA已取得显著进展,成为了具身智能领域的新范式。
而现有的VLA训练范式存在两个关键挑战:
1)虚假遗忘,机器人训练会覆盖关键的视觉文本对齐信息;2)任务干扰,控制任务和理解任务在联合训练时会存在相互竞争,导致模型性能降低。
为此,美的AI研究院联合华东师范大学、国地共建具身智能机器人创新中心等提出一个视觉-语言-动作模型ChatVLA,能够实现统一的多模态理解和具身控制。
ChatVLA是一个在神经架构和训练策略方面都简单有效的框架,能让单个神经网络同时掌握理解和操作能力。ChatVLA采用分为两阶段对齐训练的策略:模型首先掌握实体控制,然后逐步整合多模态数据, “重新激活” 冻结的对齐链接。此外,研究人员还在在MLP层引入了专家混合(MoE)。这使得两个任务可以共享注意力层,能够实现跨任务知识转移;同时隔离特定任务的MLP,以最小化干扰。
研究人员在25个真实场景中机器人任务上对ChatVLA进行评估,这些任务包括抓取、放置、推动和悬挂等多种技能,实验场景涉及浴室、厨房和桌面等多个家庭环境。根据语言指令的粒度,将所有任务分为直接提示的长时程任务、带有高级规划器的长时程任务、跨技能多任务这三类;并在真实机器人上进行了528次试验。在这些任务中,ChatVLA均优于OpenVLA等最先进的VLA方法。
如下Demo是基于高层策略模型的长时程任务演示,只需告诉机器人“为我准备早餐”,机器人就可以根据语音指令进行如下操作:1、拿盘子放在桌布上;2、翻转杯子,把它放在桌布上;3、把面包移到盘子里。如此富有逻辑的思维和灵活的操作性能令人惊讶。
3月20日晚7点,智猩猩邀请到论文一作,美的AI研究院算法实习生 周中仪参与「智猩猩AI新青年讲座具身智能专题」第24讲,以《统一多模态理解和具身控制的视觉-语言-动作模型ChatVLA》为主题带来直播讲解。
