智猩猩

下一个范式：Meta Foundation Model

分类： AI技术解析

2026-02-19 09:00:00

作者：Flood Sung，XVI Robotics创始人& CEO

地址：https://zhuanlan.zhihu.com/p/1999930203493901993

经授权发布，如需转载请联系原作者

01 前言

几年前，在大模型起来之前，深度强化学习DRL 的下一个热点研究范式就是Meta RL。那么，现在，Meta RL要卷土重来，在Foundation Model上搞起来。

02 怎么样的Task Setting？-> Sequential Tasks

ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory

https://arxiv.org/abs/2509.25140

ReasoningBank这篇文章已经探讨了这样的task setting。有个memory tool，然后让模型去做一系列的同类型任务，然后希望模型越到后面做的效果越好。

如果越好，就说明模型有meta learning/Learning to learn 的能力，可以从之前的task中总结经验。

如果在test阶段，我们让memory 一直存在下去，其实就是online learning的逻辑了。

我们在上一个blog提到的online learning 是单task内的learning能力，这里则拓展到多个task，或者无限制的task。

03 对于Foundation Model, Memory Tool是关键

因为context的限制，无论是256k 还是1M，终究是不够的，那么模型在做task的过程中学到的经验应该放在哪里？

直接更新到参数吗？ MAML？目前还不太现实，除非batch size=1.

所以变成skill 存储在外部是更合理的做法。

也就是要训练模型掌握Memory Tool的使用，能够自己记录自己学到的经验，并且学以致用。

这块Anthropic的Memory tool就是朝着这个方向去走。

04 学会学习是最重要的能力，是通往ASI的关键。

不管是直接在一个task内拥有学会学习能力，还是更进一步的跨task拥有学会学习的能力，这个二阶的梯度能够突破现有模型的认知，从而获得超越现在的能力。

其实人也是这样。这也是人接下来最重要的能力。知识反而越来越不重要了。

05 小结

模型在变，任务在变，RL的内核，Meta Learning的内核则永远不变。