作者:Flood Sung,XVI Robotics创始人& CEO
地址:https://zhuanlan.zhihu.com/p/1999930203493901993
经授权发布,如需转载请联系原作者
01 前言
几年前,在大模型起来之前,深度强化学习DRL 的下一个热点研究范式就是Meta RL。那么,现在,Meta RL要卷土重来,在Foundation Model上搞起来。
02 怎么样的Task Setting?-> Sequential Tasks
ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory
https://arxiv.org/abs/2509.25140
ReasoningBank这篇文章已经探讨了 这样的task setting。有个memory tool,然后让模型去做一系列的同类型任务,然后希望模型越到后面做的效果越好。
如果越好,就说明模型有meta learning/Learning to learn 的能力,可以从之前的task中总结经验。
如果在test阶段,我们让memory 一直存在下去,其实就是online learning的逻辑了。
我们在上一个blog提到的online learning 是单task内的learning能力,这里则拓展到多个task,或者无限制的task。
03 对于Foundation Model, Memory Tool是关键
因为context的限制,无论是256k 还是1M,终究是不够的,那么模型在做task的过程中学到的经验应该放在哪里?
直接更新到参数吗? MAML? 目前还不太现实,除非batch size=1.
所以变成skill 存储在外部是更合理的做法。
也就是要训练模型掌握Memory Tool的使用,能够自己记录自己学到的经验,并且学以致用。
这块Anthropic的Memory tool就是朝着这个方向去走。
04 学会学习是最重要的能力,是通往ASI的关键。
不管是直接在一个task内拥有学会学习能力,还是更进一步的跨task拥有学会学习的能力,这个二阶的梯度能够突破现有模型的认知,从而获得超越现在的能力。
其实人也是这样。这也是人接下来最重要的能力。知识反而越来越不重要了。
05 小结
模型在变,任务在变,RL的内核,Meta Learning的内核则永远不变。