绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
0
0
美的AI研究院提出视觉-语言-动作模型ChatVLA,实现统一多模态理解和具身控制 | 一作周中仪主讲预告
分类: 具身智能
2025-03-18 15:05:05

VLA (Vision Language Action) 是一种结合了视觉、语言和动作三种能力的多模态机器学习模型,旨在实现从感知输入直接映射到机器人控制动作的完整闭环能力。最早是Google DeepMind在RT-2中提出的一种全新概念。近年来VLA已取得显著进展,成为了具身智能领域的新范式。

而现有的VLA训练范式存在两个关键挑战:

1)虚假遗忘,机器人训练会覆盖关键的视觉文本对齐信息;

2)任务干扰,控制任务和理解任务在联合训练时会存在相互竞争,导致模型性能降低。

为此,美的AI研究院联合华东师范大学、国地共建具身智能机器人创新中心等提出一个视觉-语言-动作模型ChatVLA,能够实现统一的多模态理解和具身控制。

ChatVLA是一个在神经架构和训练策略方面都简单有效的框架,能让单个神经网络同时掌握理解和操作能力。ChatVLA采用分为两阶段对齐训练的策略:模型首先掌握实体控制,然后逐步整合多模态数据, “重新激活” 冻结的对齐链接。此外,研究人员还在在MLP层引入了专家混合(MoE)。这使得两个任务可以共享注意力层,能够实现跨任务知识转移;同时隔离特定任务的MLP,以最小化干扰。

研究人员在25个真实场景中机器人任务上对ChatVLA进行评估,这些任务包括抓取、放置、推动和悬挂等多种技能,实验场景涉及浴室、厨房和桌面等多个家庭环境。根据语言指令的粒度,将所有任务分为直接提示的长时程任务、带有高级规划器的长时程任务、跨技能多任务这三类;并在真实机器人上进行了528次试验。在这些任务中,ChatVLA均优于OpenVLA等最先进的VLA方法。

如下Demo是基于高层策略模型的长时程任务演示,只需告诉机器人“为我准备早餐”,机器人就可以根据语音指令进行如下操作:1、拿盘子放在桌布上;2、翻转杯子,把它放在桌布上;3、把面包移到盘子里。如此富有逻辑的思维和灵活的操作性能令人惊讶。

3月20日晚7点,智猩猩邀请到论文一作美的AI研究院算法实习生 周中仪参与「智猩猩AI新青年讲座具身智能专题」第24讲,以《统一多模态理解和具身控制的视觉-语言-动作模型ChatVLA》为主题带来直播讲解。


讲者

周中仪,美的AI研究院算法实习生

本硕均就读于华东师范大学计算机学院,并长期于美的AI研究院实习。主要研究兴趣为具身智能泛化性,旨在探索具身智能在复杂环境中的对话理解与泛化操作能力。提出了首个融合多模态理解与具身控制的端到端大模型。


第 24 讲

 主 题 

《统一多模态理解和具身控制的视觉-语言-动作模型ChatVLA

 提 纲 

1、多模态理解与具身控制的意义

2、现有VLA训练范式及其面临的挑战

3、基于ChatVLA实现统一的多模态理解和具身控制

4、在真实家庭环境中的实验结果及分析


 直 播 信 息 

直播时间:3月20日19点


成果

论文标题

《ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model》

论文链接

https://arxiv.org/abs/2502.14420

项目地址

 https://chatvla.github.io/


如何报名与入群

有讲座直播观看需求的朋友,可以扫码添加小助手莓莓,发送私信“具身智能24”进行报名,报名通过后将给到直播地址。

针对此次讲座,也有组建学习群。希望入群参与探讨的,也可以与莓莓进行申请。