作者:Devin
地址:https://zhuanlan.zhihu.com/p/1992250322056389453
经授权发布,如需转载请联系原作者
引言:Research Agent 的能力瓶颈究竟在哪里?
在当前的 Research Agent 研究中,一个普遍但尚未被充分澄清的问题是:
在模型规模持续扩大、上下文长度不断增长的背景下,为什么 Research Agent 在真实复杂任务中的能力提升并不呈现同等幅度的增长?
实践中可以观察到,许多 Agent 的失败并非源于语言建模能力不足,而是由于:
中间推理假设错误却缺乏纠错机制。
推理过程一旦偏离,后续推理持续放大误差。
MiroThinker 的核心切入点,正是对这一现象的系统性回应。
01 独立推理的结构性缺陷
当前广泛使用的 test-time scaling 方法(如 long Chain-of-Thought、self-consistency 等)本质上都属于独立推理扩展:
推理过程完全发生在模型自身的分布之内。
在这种设定下:
推理长度越长,错误被放大的概率越高。
模型缺乏来自外部环境的校正信号。
MiroThinker 对此给出了一个高度凝练的判断:
Reasoning in isolation degrades with length; interaction enables correction.
孤立推理越长越容易退化,交互才能纠错
这揭示了一个关键事实:研究能力的提升,不能仅依赖更长的内部推理。
02 Test-time Scaling 与 Interactive Scaling 的根本差异
理解 MiroThinker 的关键,在于区分两种 scaling 路径。
1. Test-time Scaling
通过延长推理链条提升表现。
仍然局限于模型自身分布。
无法可靠纠正中间错误。
2. Interactive Scaling
MiroThinker 提出的 Interactive Scaling 强调:将 agent–environment 交互的深度与频率,作为一种可被系统性训练的能力维度。
在这一视角下:
工具调用并非辅助,而是推理的一部分。
Observation 构成外部约束,用于修正内部假设。
03 Research Agent 的学习对象:Trajectory 而非 Answer
MiroThinker 并未引入新的 Agent 架构,而是基于 ReAct 范式,将学习重心明确放在 trajectory 上。
一条 trajectory 由以下三元组序列构成:
Thought(内部推理状态)。
Action(对环境的操作)。
Observation(环境反馈)。
由此可得出一个重要结论:Research Agent 的核心能力,在于如何延展、修正并终止 trajectory,而非单次生成答案。
04 交互扩展的核心风险:为何不会退化为无效交互
将交互深度作为 scaling 维度,一个自然的问题是:更频繁、更长期的交互,是否会诱导模型产生大量低价值、重复性的工具调用?
这一问题的根源在于:
单步交互的价值难以评估。
research 任务的价值通常只能在完整 trajectory 结束后判断。
这直接引出了对 reward 设计层级的重新思考。
05 关键判断:信息增益不宜直接进入 Reward
MiroThinker 的训练设计隐含了一个重要原则:信息增益更适合在 trajectory-level 进行评估,而非通过 step-level reward 显式建模。
原因包括:
1. 局部信息“新颖性”不等价于全局有效性。
2. Step-level reward 易引发代理指标投机。
3. 容易导致局部最优,破坏长期规划。
因此,reward 本身应保持简洁与稳定。
06 结构性解决方案:三层约束而非精细 Reward
MiroThinker 通过结构性设计而非复杂 reward,避免了无效交互的扩散。
1. SFT:行为空间约束
基于高质量 expert trajectory 进行监督微调。
在数据层过滤明显无效的行为模式。
2. Preference Optimization(DPO):轨迹级方向选择
比较对象为完整 trajectory。
仅依据最终任务完成质量进行偏好判断。
由此确保:交互数量本身不构成优势,只有有效交互才具备价值。
3. RL + Trajectory Filtering:隐性负反馈
在强化学习阶段,对以下轨迹进行直接剔除:
重复探索。
action loop。
无信息增益的反复尝试。
这实质上通过数据分布控制实现了负反馈。
07 为何交互深度呈现“右移但收敛”的分布特征
实验结果显示,随着训练推进,交互轮数整体右移,但并未发散。
其根本原因在于:可获取的有效信息空间是有限的。
随着 trajectory 延展:
非重复、高价值路径逐渐减少。
新信息的边际收益持续下降。
这一现象通过以下机制被稳定地反映到训练中:
1. Preference / filtering 限制冗余轨迹进入学习分布。
2. GRPO 的相对优势设计抑制无效拉长。
3. Recency-based context retention 降低超长轨迹的有效信息密度。
08 类人研究行为的隐式复现
值得注意的是,这一训练结果与人类研究行为高度一致:
初期广泛探索。
中期路径收敛。
后期感知信息饱和并停止。
尽管模型未显式建模 belief 或 uncertainty,但通过 trajectory-level learning, 其行为呈现出对“认识饱和点”的隐式感知。
09 结语:Research Agent 的第三条 Scaling 曲线
MiroThinker 的核心价值不在于具体参数规模或上下文长度,而在于提出并验证了一个关键观点:Interaction Depth 是 Research Agent 能力提升的第三条 scaling 曲线。
研究能力的增强,并非来源于更长的独立推理,而在于:是否具备与环境进行有效、可纠错、可收敛交互的能力。
这一视角,为 Research Agent 的训练范式提供了极具启发性的方向。