绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
统一多模态理解和具身控制的视觉-语言-动作模型ChatVLA
智猩猩AI新青年讲座具身智能专题 2025/03/20 19:00:00
课程讲师
周中仪 美的AI研究院 算法实习生

本硕均就读于华东师范大学计算机学院,并长期于美的AI研究院实习。主要研究兴趣为具身智能泛化性,旨在探索具身智能在复杂环境中的对话理解与泛化操作能力。提出了首个融合多模态理解与具身控制的端到端大模型。

周中仪
美的AI研究院 算法实习生

本硕均就读于华东师范大学计算机学院,并长期于美的AI研究院实习。主要研究兴趣为具身智能泛化性,旨在探索具身智能在复杂环境中的对话理解与泛化操作能力。提出了首个融合多模态理解与具身控制的端到端大模型。

课程提纲
  • 1、多模态理解与具身控制的意义
  • 2、现有VLA训练范式及其面临的挑战
  • 3、基于ChatVLA实现统一的多模态理解和具身控制
  • 4、在真实家庭环境中的实验结果及分析
课程简介

VLA (Vision Language Action) 是一种结合了视觉、语言和动作三种能力的多模态机器学习模型,旨在实现从感知输入直接映射到机器人控制动作的完整闭环能力。最早是Google DeepMind在RT-2中提出的一种全新概念。近年来VLA已取得显著进展,成为了具身智能领域的新范式。

而现有的VLA训练范式存在两个关键挑战:

1)虚假遗忘,机器人训练会覆盖关键的视觉文本对齐信息;2)任务干扰,控制任务和理解任务在联合训练时会存在相互竞争,导致模型性能降低。

为此,美的AI研究院联合华东师范大学、国地共建具身智能机器人创新中心等提出一个视觉-语言-动作模型ChatVLA,能够实现统一的多模态理解和具身控制。

ChatVLA是一个在神经架构和训练策略方面都简单有效的框架,能让单个神经网络同时掌握理解和操作能力。ChatVLA采用分为两阶段对齐训练的策略:模型首先掌握实体控制,然后逐步整合多模态数据, “重新激活” 冻结的对齐链接。此外,研究人员还在在MLP层引入了专家混合(MoE)。这使得两个任务可以共享注意力层,能够实现跨任务知识转移;同时隔离特定任务的MLP,以最小化干扰。

研究人员在25个真实场景中机器人任务上对ChatVLA进行评估,这些任务包括抓取、放置、推动和悬挂等多种技能,实验场景涉及浴室、厨房和桌面等多个家庭环境。根据语言指令的粒度,将所有任务分为直接提示的长时程任务、带有高级规划器的长时程任务、跨技能多任务这三类;并在真实机器人上进行了528次试验。在这些任务中,ChatVLA均优于OpenVLA等最先进的VLA方法。

如下Demo是基于高层策略模型的长时程任务演示,只需告诉机器人“为我准备早餐”,机器人就可以根据语音指令进行如下操作:1、拿盘子放在桌布上;2、翻转杯子,把它放在桌布上;3、把面包移到盘子里。如此富有逻辑的思维和灵活的操作性能令人惊讶。

3月20日晚7点,智猩猩邀请到论文一作,美的AI研究院算法实习生 周中仪参与「智猩猩AI新青年讲座具身智能专题」第24讲,以《统一多模态理解和具身控制的视觉-语言-动作模型ChatVLA》为主题带来直播讲解。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...