智猩猩

从 MiroThinker 看 Research Agent 的第三条 Scaling 曲线

分类： AI技术解析

2026-01-08 11:33:00

作者：Devin

地址：https://zhuanlan.zhihu.com/p/1992250322056389453

经授权发布，如需转载请联系原作者

引言：Research Agent 的能力瓶颈究竟在哪里？

在当前的 Research Agent 研究中，一个普遍但尚未被充分澄清的问题是：

在模型规模持续扩大、上下文长度不断增长的背景下，为什么 Research Agent 在真实复杂任务中的能力提升并不呈现同等幅度的增长？

实践中可以观察到，许多 Agent 的失败并非源于语言建模能力不足，而是由于：

中间推理假设错误却缺乏纠错机制。
推理过程一旦偏离，后续推理持续放大误差。

MiroThinker 的核心切入点，正是对这一现象的系统性回应。

01 独立推理的结构性缺陷

当前广泛使用的 test-time scaling 方法（如 long Chain-of-Thought、self-consistency 等）本质上都属于独立推理扩展：

推理过程完全发生在模型自身的分布之内。

在这种设定下：

推理长度越长，错误被放大的概率越高。
模型缺乏来自外部环境的校正信号。

MiroThinker 对此给出了一个高度凝练的判断：

Reasoning in isolation degrades with length; interaction enables correction.

孤立推理越长越容易退化，交互才能纠错

这揭示了一个关键事实：研究能力的提升，不能仅依赖更长的内部推理。

02 Test-time Scaling 与 Interactive Scaling 的根本差异

理解 MiroThinker 的关键，在于区分两种 scaling 路径。

1. Test-time Scaling

通过延长推理链条提升表现。
仍然局限于模型自身分布。
无法可靠纠正中间错误。

2. Interactive Scaling

MiroThinker 提出的 Interactive Scaling 强调：将 agent–environment 交互的深度与频率，作为一种可被系统性训练的能力维度。

在这一视角下：

工具调用并非辅助，而是推理的一部分。
Observation 构成外部约束，用于修正内部假设。

03 Research Agent 的学习对象：Trajectory 而非 Answer

MiroThinker 并未引入新的 Agent 架构，而是基于 ReAct 范式，将学习重心明确放在 trajectory 上。

一条 trajectory 由以下三元组序列构成：

Thought（内部推理状态）。
Action（对环境的操作）。
Observation（环境反馈）。

由此可得出一个重要结论：Research Agent 的核心能力，在于如何延展、修正并终止 trajectory，而非单次生成答案。

04 交互扩展的核心风险：为何不会退化为无效交互

将交互深度作为 scaling 维度，一个自然的问题是：更频繁、更长期的交互，是否会诱导模型产生大量低价值、重复性的工具调用？

这一问题的根源在于：

单步交互的价值难以评估。
research 任务的价值通常只能在完整 trajectory 结束后判断。

这直接引出了对 reward 设计层级的重新思考。

05 关键判断：信息增益不宜直接进入 Reward

MiroThinker 的训练设计隐含了一个重要原则：信息增益更适合在 trajectory-level 进行评估，而非通过 step-level reward 显式建模。

原因包括：

1. 局部信息“新颖性”不等价于全局有效性。

2. Step-level reward 易引发代理指标投机。

3. 容易导致局部最优，破坏长期规划。

因此，reward 本身应保持简洁与稳定。

06 结构性解决方案：三层约束而非精细 Reward

MiroThinker 通过结构性设计而非复杂 reward，避免了无效交互的扩散。

1. SFT：行为空间约束

基于高质量 expert trajectory 进行监督微调。
在数据层过滤明显无效的行为模式。

2. Preference Optimization（DPO）：轨迹级方向选择

比较对象为完整 trajectory。
仅依据最终任务完成质量进行偏好判断。

由此确保：交互数量本身不构成优势，只有有效交互才具备价值。

3. RL + Trajectory Filtering：隐性负反馈

在强化学习阶段，对以下轨迹进行直接剔除：

重复探索。
action loop。
无信息增益的反复尝试。

这实质上通过数据分布控制实现了负反馈。

07 为何交互深度呈现“右移但收敛”的分布特征

实验结果显示，随着训练推进，交互轮数整体右移，但并未发散。

其根本原因在于：可获取的有效信息空间是有限的。

随着 trajectory 延展：

非重复、高价值路径逐渐减少。
新信息的边际收益持续下降。

这一现象通过以下机制被稳定地反映到训练中：

1. Preference / filtering 限制冗余轨迹进入学习分布。

2. GRPO 的相对优势设计抑制无效拉长。

3. Recency-based context retention 降低超长轨迹的有效信息密度。

08 类人研究行为的隐式复现

值得注意的是，这一训练结果与人类研究行为高度一致：

初期广泛探索。
中期路径收敛。
后期感知信息饱和并停止。

尽管模型未显式建模 belief 或 uncertainty，但通过 trajectory-level learning， 其行为呈现出对“认识饱和点”的隐式感知。

09 结语:Research Agent 的第三条 Scaling 曲线

MiroThinker 的核心价值不在于具体参数规模或上下文长度，而在于提出并验证了一个关键观点：Interaction Depth 是 Research Agent 能力提升的第三条 scaling 曲线。

研究能力的增强，并非来源于更长的独立推理，而在于：是否具备与环境进行有效、可纠错、可收敛交互的能力。

这一视角，为 Research Agent 的训练范式提供了极具启发性的方向。