智猩猩

美的AI研究院提出视觉-语言-动作模型ChatVLA，实现统一多模态理解和具身控制 | 一作周中仪主讲预告

分类：具身智能

2025-03-18 15:05:05

VLA (Vision Language Action) 是一种结合了视觉、语言和动作三种能力的多模态机器学习模型，旨在实现从感知输入直接映射到机器人控制动作的完整闭环能力。最早是Google DeepMind在RT-2中提出的一种全新概念。近年来VLA已取得显著进展，成为了具身智能领域的新范式。

而现有的VLA训练范式存在两个关键挑战：

1）虚假遗忘，机器人训练会覆盖关键的视觉文本对齐信息；

2）任务干扰，控制任务和理解任务在联合训练时会存在相互竞争，导致模型性能降低。

为此，美的AI研究院联合华东师范大学、国地共建具身智能机器人创新中心等提出一个视觉-语言-动作模型ChatVLA，能够实现统一的多模态理解和具身控制。

ChatVLA是一个在神经架构和训练策略方面都简单有效的框架，能让单个神经网络同时掌握理解和操作能力。ChatVLA采用分为两阶段对齐训练的策略：模型首先掌握实体控制，然后逐步整合多模态数据， “重新激活” 冻结的对齐链接。此外，研究人员还在在MLP层引入了专家混合（MoE）。这使得两个任务可以共享注意力层，能够实现跨任务知识转移；同时隔离特定任务的MLP，以最小化干扰。

研究人员在25个真实场景中机器人任务上对ChatVLA进行评估，这些任务包括抓取、放置、推动和悬挂等多种技能，实验场景涉及浴室、厨房和桌面等多个家庭环境。根据语言指令的粒度，将所有任务分为直接提示的长时程任务、带有高级规划器的长时程任务、跨技能多任务这三类；并在真实机器人上进行了528次试验。在这些任务中，ChatVLA均优于OpenVLA等最先进的VLA方法。

如下Demo是基于高层策略模型的长时程任务演示，只需告诉机器人“为我准备早餐”，机器人就可以根据语音指令进行如下操作：1、拿盘子放在桌布上；2、翻转杯子，把它放在桌布上；3、把面包移到盘子里。如此富有逻辑的思维和灵活的操作性能令人惊讶。

3月20日晚7点，智猩猩邀请到论文一作，美的AI研究院算法实习生周中仪参与「智猩猩AI新青年讲座具身智能专题」第24讲，以《统一多模态理解和具身控制的视觉-语言-动作模型ChatVLA》为主题带来直播讲解。

讲者

周中仪，美的AI研究院算法实习生

本硕均就读于华东师范大学计算机学院，并长期于美的AI研究院实习。主要研究兴趣为具身智能泛化性，旨在探索具身智能在复杂环境中的对话理解与泛化操作能力。提出了首个融合多模态理解与具身控制的端到端大模型。

第 24 讲

主题

《统一多模态理解和具身控制的视觉-语言-动作模型ChatVLA》

提纲

1、多模态理解与具身控制的意义

2、现有VLA训练范式及其面临的挑战

3、基于ChatVLA实现统一的多模态理解和具身控制

4、在真实家庭环境中的实验结果及分析

直播信息

直播时间：3月20日19点

成果

论文标题

《ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model》

论文链接

https://arxiv.org/abs/2502.14420

项目地址

https://chatvla.github.io/

如何报名与入群

有讲座直播观看需求的朋友，可以扫码添加小助手莓莓，发送私信“具身智能24”进行报名，报名通过后将给到直播地址。

针对此次讲座，也有组建学习群。希望入群参与探讨的，也可以与莓莓进行申请。