统一多模态理解和具身控制的视觉-语言-动作模型ChatVLA

智猩猩AI新青年讲座具身智能专题 2025/03/20 19:00:00

课程讲师

周中仪美的AI研究院算法实习生

本硕均就读于华东师范大学计算机学院，并长期于美的AI研究院实习。主要研究兴趣为具身智能泛化性，旨在探索具身智能在复杂环境中的对话理解与泛化操作能力。提出了首个融合多模态理解与具身控制的端到端大模型。

周中仪

美的AI研究院算法实习生

课程提纲

1、多模态理解与具身控制的意义
2、现有VLA训练范式及其面临的挑战
3、基于ChatVLA实现统一的多模态理解和具身控制
4、在真实家庭环境中的实验结果及分析

课程简介

VLA (Vision Language Action) 是一种结合了视觉、语言和动作三种能力的多模态机器学习模型，旨在实现从感知输入直接映射到机器人控制动作的完整闭环能力。最早是Google DeepMind在RT-2中提出的一种全新概念。近年来VLA已取得显著进展，成为了具身智能领域的新范式。

而现有的VLA训练范式存在两个关键挑战：

1）虚假遗忘，机器人训练会覆盖关键的视觉文本对齐信息；2）任务干扰，控制任务和理解任务在联合训练时会存在相互竞争，导致模型性能降低。

为此，美的AI研究院联合华东师范大学、国地共建具身智能机器人创新中心等提出一个视觉-语言-动作模型ChatVLA，能够实现统一的多模态理解和具身控制。

ChatVLA是一个在神经架构和训练策略方面都简单有效的框架，能让单个神经网络同时掌握理解和操作能力。ChatVLA采用分为两阶段对齐训练的策略：模型首先掌握实体控制，然后逐步整合多模态数据， “重新激活” 冻结的对齐链接。此外，研究人员还在在MLP层引入了专家混合（MoE）。这使得两个任务可以共享注意力层，能够实现跨任务知识转移；同时隔离特定任务的MLP，以最小化干扰。

研究人员在25个真实场景中机器人任务上对ChatVLA进行评估，这些任务包括抓取、放置、推动和悬挂等多种技能，实验场景涉及浴室、厨房和桌面等多个家庭环境。根据语言指令的粒度，将所有任务分为直接提示的长时程任务、带有高级规划器的长时程任务、跨技能多任务这三类；并在真实机器人上进行了528次试验。在这些任务中，ChatVLA均优于OpenVLA等最先进的VLA方法。

如下Demo是基于高层策略模型的长时程任务演示，只需告诉机器人“为我准备早餐”，机器人就可以根据语音指令进行如下操作：1、拿盘子放在桌布上；2、翻转杯子，把它放在桌布上；3、把面包移到盘子里。如此富有逻辑的思维和灵活的操作性能令人惊讶。

3月20日晚7点，智猩猩邀请到论文一作，美的AI研究院算法实习生周中仪参与「智猩猩AI新青年讲座具身智能专题」第24讲，以《统一多模态理解和具身控制的视觉-语言-动作模型ChatVLA》为主题带来直播讲解。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...