绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
0
0
从 MiroThinker 看 Research Agent 的第三条 Scaling 曲线
分类: AI技术解析
2026-01-08 11:33:00

作者:Devin

地址:https://zhuanlan.zhihu.com/p/1992250322056389453

经授权发布,如需转载请联系原作者

引言:Research Agent 的能力瓶颈究竟在哪里?

在当前的 Research Agent 研究中,一个普遍但尚未被充分澄清的问题是:

在模型规模持续扩大、上下文长度不断增长的背景下,为什么 Research Agent 在真实复杂任务中的能力提升并不呈现同等幅度的增长?

实践中可以观察到,许多 Agent 的失败并非源于语言建模能力不足,而是由于:

  • 中间推理假设错误却缺乏纠错机制。

  • 推理过程一旦偏离,后续推理持续放大误差。

MiroThinker 的核心切入点,正是对这一现象的系统性回应。

01 独立推理的结构性缺陷

当前广泛使用的 test-time scaling 方法(如 long Chain-of-Thought、self-consistency 等)本质上都属于独立推理扩展

推理过程完全发生在模型自身的分布之内。

在这种设定下:

  • 推理长度越长,错误被放大的概率越高。

  • 模型缺乏来自外部环境的校正信号。

MiroThinker 对此给出了一个高度凝练的判断:

Reasoning in isolation degrades with length; interaction enables correction.

孤立推理越长越容易退化,交互才能纠错

这揭示了一个关键事实:研究能力的提升,不能仅依赖更长的内部推理。

02 Test-time Scaling 与 Interactive Scaling 的根本差异

理解 MiroThinker 的关键,在于区分两种 scaling 路径。

1. Test-time Scaling

  • 通过延长推理链条提升表现。

  • 仍然局限于模型自身分布。

  • 无法可靠纠正中间错误。

2. Interactive Scaling

MiroThinker 提出的 Interactive Scaling 强调:将 agent–environment 交互的深度与频率,作为一种可被系统性训练的能力维度。

在这一视角下:

  • 工具调用并非辅助,而是推理的一部分。

  • Observation 构成外部约束,用于修正内部假设。

03 Research Agent 的学习对象:Trajectory 而非 Answer

MiroThinker 并未引入新的 Agent 架构,而是基于 ReAct 范式,将学习重心明确放在 trajectory 上。

一条 trajectory 由以下三元组序列构成:

  • Thought(内部推理状态)。

  • Action(对环境的操作)。

  • Observation(环境反馈)。

由此可得出一个重要结论:Research Agent 的核心能力,在于如何延展、修正并终止 trajectory,而非单次生成答案。

04 交互扩展的核心风险:为何不会退化为无效交互

将交互深度作为 scaling 维度,一个自然的问题是:更频繁、更长期的交互,是否会诱导模型产生大量低价值、重复性的工具调用?

这一问题的根源在于:

  • 单步交互的价值难以评估。

  • research 任务的价值通常只能在完整 trajectory 结束后判断。

这直接引出了对 reward 设计层级的重新思考。

05 关键判断:信息增益不宜直接进入 Reward

MiroThinker 的训练设计隐含了一个重要原则:信息增益更适合在 trajectory-level 进行评估,而非通过 step-level reward 显式建模。

原因包括:

1. 局部信息“新颖性”不等价于全局有效性。

2. Step-level reward 易引发代理指标投机。

3. 容易导致局部最优,破坏长期规划。

因此,reward 本身应保持简洁与稳定。

06 结构性解决方案:三层约束而非精细 Reward

MiroThinker 通过结构性设计而非复杂 reward,避免了无效交互的扩散。

1. SFT:行为空间约束

  • 基于高质量 expert trajectory 进行监督微调。

  • 在数据层过滤明显无效的行为模式。

2. Preference Optimization(DPO):轨迹级方向选择

  • 比较对象为完整 trajectory。

  • 仅依据最终任务完成质量进行偏好判断。

由此确保:交互数量本身不构成优势,只有有效交互才具备价值。

3. RL + Trajectory Filtering:隐性负反馈

在强化学习阶段,对以下轨迹进行直接剔除:

  • 重复探索。

  • action loop。

  • 无信息增益的反复尝试。

这实质上通过数据分布控制实现了负反馈。

07 为何交互深度呈现“右移但收敛”的分布特征

实验结果显示,随着训练推进,交互轮数整体右移,但并未发散。

其根本原因在于:可获取的有效信息空间是有限的

随着 trajectory 延展:

  • 非重复、高价值路径逐渐减少。

  • 新信息的边际收益持续下降。

这一现象通过以下机制被稳定地反映到训练中:

1. Preference / filtering 限制冗余轨迹进入学习分布。

2. GRPO 的相对优势设计抑制无效拉长。

3. Recency-based context retention 降低超长轨迹的有效信息密度。

08 类人研究行为的隐式复现

值得注意的是,这一训练结果与人类研究行为高度一致:

  • 初期广泛探索。

  • 中期路径收敛。

  • 后期感知信息饱和并停止。

尽管模型未显式建模 belief 或 uncertainty,但通过 trajectory-level learning, 其行为呈现出对“认识饱和点”的隐式感知。

09 结语:Research Agent 的第三条 Scaling 曲线

MiroThinker 的核心价值不在于具体参数规模或上下文长度,而在于提出并验证了一个关键观点:Interaction Depth 是 Research Agent 能力提升的第三条 scaling 曲线。

研究能力的增强,并非来源于更长的独立推理,而在于:是否具备与环境进行有效、可纠错、可收敛交互的能力。

这一视角,为 Research Agent 的训练范式提供了极具启发性的方向。