绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
0
0
下一个范式:Meta Foundation Model
分类: AI技术解析
2026-02-19 09:00:00

作者:Flood Sung,XVI Robotics创始人& CEO

地址:https://zhuanlan.zhihu.com/p/1999930203493901993

经授权发布,如需转载请联系原作者

01 前言

几年前,在大模型起来之前,深度强化学习DRL 的下一个热点研究范式就是Meta RL。那么,现在,Meta RL要卷土重来,在Foundation Model上搞起来。

02 怎么样的Task Setting?-> Sequential Tasks

ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory

https://arxiv.org/abs/2509.25140

ReasoningBank这篇文章已经探讨了 这样的task setting。有个memory tool,然后让模型去做一系列的同类型任务,然后希望模型越到后面做的效果越好。

如果越好,就说明模型有meta learning/Learning to learn 的能力,可以从之前的task中总结经验。

如果在test阶段,我们让memory 一直存在下去,其实就是online learning的逻辑了。

我们在上一个blog提到的online learning 是单task内的learning能力,这里则拓展到多个task,或者无限制的task。

03 对于Foundation Model, Memory Tool是关键

因为context的限制,无论是256k 还是1M,终究是不够的,那么模型在做task的过程中学到的经验应该放在哪里?

直接更新到参数吗? MAML? 目前还不太现实,除非batch size=1.

所以变成skill 存储在外部是更合理的做法。

也就是要训练模型掌握Memory Tool的使用,能够自己记录自己学到的经验,并且学以致用。

这块Anthropic的Memory tool就是朝着这个方向去走。

04 学会学习是最重要的能力,是通往ASI的关键。

不管是直接在一个task内拥有学会学习能力,还是更进一步的跨task拥有学会学习的能力,这个二阶的梯度能够突破现有模型的认知,从而获得超越现在的能力。

其实人也是这样。这也是人接下来最重要的能力。知识反而越来越不重要了。

05 小结

模型在变,任务在变,RL的内核,Meta Learning的内核则永远不变。