绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
高泛化及样本高效的具身智能决策方法
智猩猩具身智能前沿讲座 2024/10/15 19:00:00
课程讲师
李健雄 清华大学 智能产业研究院(AIR)在读博士

主要研究方向是离线强化学习及其在具身智能中的应用,在人工智能顶级会议ICLR,NeurIPS,ICML中发表多篇论文,数篇论文被评选为Oral/Spotlight Presentation,曾获MFM-EAI Workshop@ICML 2024 Outstanding paper奖。担任ICLR, NeurIPS, ICML, AAAI, IJCAI审稿人。

李健雄
清华大学 智能产业研究院(AIR)在读博士

主要研究方向是离线强化学习及其在具身智能中的应用,在人工智能顶级会议ICLR,NeurIPS,ICML中发表多篇论文,数篇论文被评选为Oral/Spotlight Presentation,曾获MFM-EAI Workshop@ICML 2024 Outstanding paper奖。担任ICLR, NeurIPS, ICML, AAAI, IJCAI审稿人。

课程提纲
  • 1、视觉-语言-控制模型(VLCM)面临的数据挑战
  • 2、高泛化的具身多模态表征预训练方法DecisionNCE
  • 3、基于视觉遮罩模型提升具身机器人视觉语言推理能力
  • 4、在实物机械臂实验效果展示及分析
课程简介

近年来,以谷歌RT系列为代表的视觉-语言-控制模型(VLCM,Vision-Language-Control Model)受到广泛关注。VLCM 智能体可以通过视觉理解环境,并执行人类语言所描述的任意任务,展现出了极强的 zero-shot 泛化能力。

相较于语言模型(LM),只考虑单一语言模态,视觉-语言模型(VLM)需要考虑视觉和语言两个模态,而视觉-语言-控制模型(VLCM)则需要考虑视觉、语言和控制三个模态,在训练需要海量的示教数据。因此,数据的缺乏也是具身智能、机器人学习面临的最严重问题之一。

为了解决数据稀缺的问题,一个通用的解决方案是表征预训练。然而,训练这样的表征是非常困难的,因为对于机器人的决策而言,一个高度抽象的语言指令所描述的是一种动态的变化过程。所以,传统多模态表征预训练需要考虑的是语言和单帧图片的对齐,而具身智能中的多模态表征预训练需要解决语言和视频轨迹的对齐。

针对当前问题,清华大学AIR与商汤研究院等提出一种decision-centric的多模态表征预训练方法DecisionNCE,清华大学智能产业研究院(AIR)四年级博士生李健雄为论文一作。与DecisionNCE相关论文获评ICML 2024 MFM-EAI workshop杰出论文奖。

DecisionNCE可实现在数据稀缺场景下的高泛化、轻量级具身智能体学习。利用易获取的领域外数据学习高普适、可泛化的多模态表征及通用化奖励,以构建轻量级开放场景具身智能决策模型。该方法可使用大量易获取的领域外数据学习视觉序列-语言指令相匹配的通用表征,可跨域零样本泛化到下游机器人控制任务上。通过在实体机械臂多任务操作测试,该方法在任务执行成功率方面大幅高于现有前沿方案,达到了两倍的成功率。

此外,具身智能体在复杂场景的泛化能力始终是一个广受关注的研究方向,目前具身智能决策控制模型还是十分困难。为此,李健雄博士等研究人员利用多模态大模型出色的常识推理能力,引入了全新的基于指令引导的图像遮罩方法(IVM,Instruction Guided Visual Masking)。与IVM相关的论文获评ICML 2024 MFM-EAI workshop杰出论文奖。

IVM为解决多模态大模型在视觉定位及视觉-语言推理能力不足的问题提供了全新的解决方案。该篇成果构建了面向语言指令的高质量视觉遮罩数据集,并训练了一个强大的视觉遮罩模型,可有效提升具身智能机器人及多模态大模型在视觉推理方面的能力。在高难度的多模态问答测试任务V*bench中,该模型可将OpenAI最先进的闭源多模态大模型GPT4V的正确率提高35%,首次突破80%。

10月15日晚7点,智猩猩邀请到清华大学智能产业研究院(AIR)在读博士李健雄参与「智猩猩具身智能前沿讲座」第13讲,主讲《高泛化及样本高效的具身智能决策方法》。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...