- 开课提醒
硕士研究生导师,智源青年学者。主要研究方向为深度强化学习及其在具身系统中的应用,在IEEE TNNLS/TCYB/TSMCS等国际期刊和NeurIPS,ICLR,RSS,CoRL,ICRA,AAMAS,等国际会议上发表论文40余篇,承担和参与了国家自然科学基金青年项目、国家自然科学基金重大项目子课题、以及国家自然科学基金重点项目。在国内外多个机器人赛事中获得5项冠军、3项一等奖,获得北京市科学技术奖自然科学二等奖。
硕士研究生导师,智源青年学者。主要研究方向为深度强化学习及其在具身系统中的应用,在IEEE TNNLS/TCYB/TSMCS等国际期刊和NeurIPS,ICLR,RSS,CoRL,ICRA,AAMAS,等国际会议上发表论文40余篇,承担和参与了国家自然科学基金青年项目、国家自然科学基金重大项目子课题、以及国家自然科学基金重点项目。在国内外多个机器人赛事中获得5项冠军、3项一等奖,获得北京市科学技术奖自然科学二等奖。
- 具身VLA强化学习后训练研究现状
- VLA强化学习中的奖励函数设计TeViR
- 基于世界模型的VLA强化学习后训练框架WoVR
- 面向持续学习的VLA强化学习后训练框架
- VLA强化学习后训练总结与展望
近年来,视觉-语言-动作模型(VLA)在机器人通用控制领域展现了巨大潜力。然而,现有模型在开放场景下的泛化性、动态干扰下的鲁棒性以及精细操作任务的执行精度方面仍面临显著挑战。因此,需要根据目标机器人和任务采集少量数据进行后训练。
目前的VLA后训练方法主要分为监督微调、强化微调和推理扩展三类。强化学习在在推理模型的后训练方面以及机器人控制领域展现出卓越的能力,相较于使用遥操作数据监督微调,强化微调能够获得更好的性能上限。
中国科学院自动化研究所副研究员李浩然老师及团队,围绕VLA强化学习后训练发表一系列成果。
在强化学习奖励函数设计方面,李浩然老师及团队提出为一种专为强化学习智能体标注奖励的创新框架TeViR,以及一种基于生成式Episodic的双粒度对比奖励DEG。
通过利用文本到视频扩散模型生成视频的能力,TeViR仅依赖任务文本描述和视觉观测即可为策略学习生成密集奖励,消除了对真实环境奖励的依赖。实验表明,TeViR在11个Meta-World任务和2个真实任务中均达到了SOTA水平。TeViR相关的论文成果发表于TSMCS 2025。
DEG框架能够在无需人工标注或大量监督的情况下,达到样本高效的密集奖励。DEG利用大规模视频生成模型的先验知识,仅需少量专家视频进行领域自适应,即可为每个RL情节生成专用的任务引导。
在基于世界模型的VLA强化学习后训练方面,李浩然老师团队联合中科慧灵等提出了一个将扩散世界模型集成到机器人操作强化学习训练中的框架World4RL。实验表明,World4RL持续优于基线方法,并显著增强了策略优化效果,在仿真和真机实验中,成功率分别提高了16%和25%。
World4RL采用两阶段范式:首先在多任务数据集上预训练一个扩散世界模型,以捕捉多样的动态特性;然后在世界模型内部完全进行策略优化,以避免昂贵且不安全的在线交互。该世界模型由一个扩散转移模型(根据当前观测和动作预测未来观测)和一个奖励分类器(提供稀疏的成功信号)组成,从而无需在真实环境中 rollout 即可进行策略优化。
此外,针对世界模型在闭环使用中的幻觉和误差累积问题,李浩然老师团队联合清华大学等,在World4RL的基础上又进一步提出基于可靠世界模型的VLA 强化学习后训练框架WoVR。
WoVR基于先进的Wan2.2-TI2V-5B作为网络的主干,将动作嵌入通过两个通道进行注入。WoVR不再假设世界模型是忠实的模拟器,而是把问题当成“可靠性”问题来解,研究强化学习应该如何与不完美的想象动态交互。WoVR从模拟器层、交互层和对齐层三个相互关联的层面同时约束幻觉。
在面向持续学习的VLA强化学习后训练方面,李浩然老师团队联合北京师范大学等提出一种简单高效的VLA模型强化微调(RFT)策略LifeLong-RFT。该策略无需依赖在线环境反馈或预训练奖励模型,旨在解决VLA模型在持续学习中的数据依赖和遗忘问题。该方法使VLA模型能够在仅需少量演示的情况下持续掌握新技能,同时保留原有能力。
3月13日19点,「2026智猩猩公开课Live」第3期将开讲,由中国科学院自动化研究所副研究员李浩然主讲,主题为《具身VLA强化学习后训练:从特定任务到持续学习》。