绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
具身视频基座模型Vidar解析,20分钟真机数据如何实现跨本体泛化?
智猩猩AI新青年讲座具身智能专题 2025/08/07 19:00:00
课程讲师
谭恒楷 清华大学 计算机系TSAIL实验室博士生

清华大学计算机系TSAIL实验室的二年级博士生谭恒楷(Hengkai Tan),主要研究方向是具身大模型和多模态大模型的融合和强化学习,是FCNet、ManiBox、AnyPos、Vidar的一作/共一,也是RDT具身大模型的作者之一,曾拿过全国青少年信息学奥林匹克竞赛(NOI)的银牌,全国84名。AnyPos和Vidar工作再次延续了团队“将动作解耦出基座模型”的思路,从而朝着泛化的视觉交互智能体迈进一步。

谭恒楷
清华大学 计算机系TSAIL实验室博士生

清华大学计算机系TSAIL实验室的二年级博士生谭恒楷(Hengkai Tan),主要研究方向是具身大模型和多模态大模型的融合和强化学习,是FCNet、ManiBox、AnyPos、Vidar的一作/共一,也是RDT具身大模型的作者之一,曾拿过全国青少年信息学奥林匹克竞赛(NOI)的银牌,全国84名。AnyPos和Vidar工作再次延续了团队“将动作解耦出基座模型”的思路,从而朝着泛化的视觉交互智能体迈进一步。

课程提纲
  • Vidar&AnyPos概述及Demo演示
  • 为什么利用视频模态?
  • 为什么考虑具身视频基座模型?
  • Vidar利用三级数据金字塔进行训练
  • 任务无关动作与高精度预测逆动力学模型AnyPos
课程简介

众所周知,目前大多数视觉-语言-动作(VLA)模型需要海量的多模态数据进行预训练。这种方法高度依赖大量优质数据,而这些数据往往只适配特定的机器人本体及其采集的特定任务集,数据采集过程也费时费力、成本高昂。因此,动作数据稀缺和机器人本体不统一是目前业内的两大难题。

为此,清华大学计算机系朱军团队联合生数科技提出了多视角具身视频基座模型Vidar,首次让通用视频大模型长出了"手脚"。通过少样本泛化能力,实现从虚拟世界到真实世界物理执行的关键跨越。这项创新解决了动作数据稀缺的难题,开创了“虚实互通”的全新范式,有望真正实现具身智能的scaling law。

Vidar模型是基于互联网级视频数据预训练的基座模型Vidu,使用百万异质机器人视频数据进行再训练。作为视频大模型Vidu在具身智能领域延伸的重大突破,Vidar是全球首个基于通用视频大模型,实现视频理解能力向物理决策系统性迁移的多视角具身基座模型。该模型创新性地构建了支持机器人双臂协同任务的多视角视频预测框架,在保持SOTA性能的同时,展现出显著的少样本学习优势。

该模型仅用20分钟机器人真机数据,即可快速泛化到新的机器人本体,所需数据量约为行业领先的RDT的八十分之一,π0.5的一千两百分之一,大幅降低了在机器人上大规模泛化的数据门槛。微调后的模型可完成多视角双臂任务,做到“说什么指令,做什么事情”。

目前业内主流的VLA范式面临机器人动作数据匮乏的严重挑战。为了突破现有具身智能数据被任务“过度捆绑”、难以做大的瓶颈,清华大学THBI Lab提出了任务无关动作(Task-Agnostic Action)的概念,这个概念不仅是从具身基座模型中解耦动作的关键一步,更一举带来三大好处:1)数据好采集,规模化愿景成真;2)跨任务、甚至零样本任务都能轻松泛化;3)告别人类监督、标注和遥操作,省心省力。

基于这个“任务无关数据”的概念,团队提出了自动化规模化收集任务无关动作数据的方法ATARA (Automated Task-Agnostic Random Actions)。对于一个从未见过的机器人,利用全自动化任务无关动作数据的方法收集训练数据,仅需10小时无干预自动化采集该机器人的动作数据,即可实现该机器人的全动作空间泛化,彻底告别跨本体问题。

为进一步实现从任务无关动作数据中的高效学习,该团队提出了超高精度预测逆动力学模型AnyPos用于动作执行。该模型配备了双臂解耦估计(Arm-Decoupled Estimation)和方向感知解码器(Direction-Aware Decoder),让模型在自动化采集的数据上训练出高精度的动作预测模型。

这种自动化任务无关数据收集与高精度模型训练并重的方法实现了低成本、高效率、高精度的指定机器人动作预测,准确率远超基线51%。在真实世界任务轨迹重放测试中,其成功率接近100%,相比基线大幅提升33%到44%。

8月7日晚上7点,清华大学计算机系TSAIL实验室博士生谭恒楷将参加「智猩猩AI新青年讲座具身智能专题」29讲,以《具身视频基座模型Vidar解析,20分钟真机数据如何实现跨本体泛化?》为主题进行成果讲解。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...