绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
0
0
4B超越70B奖励模型!复旦提出智能体验证器训练框架AgentV-RL,颠覆奖励模型传统打分模式
2026-04-27 16:08:00

智猩猩AI整理

编辑:宁宁

大模型推理能力不断提升,但也带来一个关键问题:当模型生成多个候选答案时,如何可靠判断哪个答案真正正确? 现有奖励模型大多仍停留在打分或单轮评价阶段,容易被表面合理但实际错误的推理过程误导;在数学、代码等复杂任务中,如果缺乏工具调用和外部验证,也容易出现误判。

针对这一问题,复旦大学、字节跳动 Seed、华中科技大学、香港大学等团队联合提出 AgentV-RL,将奖励建模从传统“静态打分”升级为 Agentic Verifier。该方法通过正向验证与反向验证两个智能体协同工作,让验证器能够拆解推理步骤、调用工具并进行多轮审查,从而给出更可靠、可解释的判断。

实验结果显示,Agentic-Verifier-Qwen3-4B 在多个数学推理基准上取得显著提升:在 MATH500 上最高达到 79.0%,在 AIME24 BoN@128 设置下达到 53.3%,并相较此前最优 outcome-level reward model 取得最高 25.2 个百分点提升,甚至超过参数规模更大的 INF-ORM-Llama3.1-70B。

  • 论文标题:AgentV-RL: Scaling Reward Modeling with Agentic Verifier

  • 论文链接:https://arxiv.org/abs/2604.16004

  • GitHub 仓库地址:https://github.com/JiazhengZhang/AgentV-RL

01 方法

AgentV-RL 的核心思路很直接:验证答案不能只看最终结果,也不能只凭模型内部推理,而应该像人类审稿一样,从多个方向反复检查。

为此研究团队提出了 Agentic Verifier 框架。它包含两个互补的智能体:Forward Agent 和 Backward Agent

(i)Forward Agent 负责正向验证。它从题目条件出发,沿着候选解法的推理过程一步步检查,判断每一步推导是否正确,前一步是否足以推出后一步。它主要解决的是“推理链是否成立”的问题。

(ii)Backward Agent 负责反向验证。它从最终答案或结论出发,反向追溯到题目条件,检查答案是否满足所有约束,是否遗漏必要证明,是否存在看起来合理但其实不符合题意的情况。它主要解决的是“结论是否真正站得住”的问题。

这两个智能体都遵循统一的 Plan-Validate-Verdict 流程:先将复杂解法拆解为可验证的原子步骤,形成明确检查计划;再逐步检查每个子步骤,并在涉及复杂计算、组合枚举或数值推导时调用 Python 等外部工具;最后综合所有检查证据,输出 True / False 判断,并用 True token 的 logits 作为置信分数。

图注:Agentic Verifier 总体框架。方法由任务定义、规划阶段、验证阶段和最终裁决阶段组成,并结合训练流程与 Test-Time Scaling 场景。

在这个框架中,正向验证强调“充分性”,即推理是否能从条件推出结论;反向验证强调“必要性”,即结论是否真的满足题目要求。二者结合后,可以更有效地发现隐藏在中间步骤、计算细节和题目约束中的错误。

不过,直接部署多智能体框架会带来较高成本。为此研究团队进一步提出 AgentV-RL 训练流程,将这种多智能体验证能力蒸馏到一个单一 LLM verifier 中。

研究团队先基于 Polaris、DeepScaleR-40K、AReaL-boba-106k 等公开数学推理数据集构造候选解法,并过滤掉全部正确或全部错误的过易 / 过难样本。随后,让 LLM 扮演 Forward Agent 或 Backward Agent,自动生成带工具调用的验证轨迹;只有当最终判断与真实标签一致时,该轨迹才会被保留。

在训练阶段,模型先通过 SFT 学习高质量的多轮验证行为,再通过 GRPO 强化学习进一步优化验证策略。AgentV-RL 训练的不是一个简单打分器,而是一个具备规划、检查、工具调用和最终裁决能力的验证器。

02 实验设置及结果分析

研究团队主要围绕两类 Test-Time Scaling 场景展开实验:并行扩展顺序扩展

在并行扩展中,研究团队采用 Best-of-N 设置。Actor 模型先为同一个问题生成 N 个候选答案,Agentic Verifier 对每个候选答案进行验证和打分,最终选择置信度最高的答案作为输出。

实验数据集包括 GSM8K、MATH500、Gaokao2023 和 AIME24。对比对象涵盖普通文本推理模型、Outcome-level RM 和 Process-level RM。结果显示,Agentic-Verifier-Qwen3-4B 在多个数据集上表现突出,如下图所示。在 MATH500 上,BoN@32、@64、@128 分别达到 73.8%、76.2%、79.0%;在 Gaokao2023 上最高达到 57.4%;在 AIME24 上,BoN@128 达到 53.3%,明显优于多种更大规模模型和奖励模型基线。

图注:Best-of-N 采样实验结果。Agentic-Verifier-Qwen3-4B 在 MATH500、GSM8K、Gaokao2023、AIME24 上取得强表现,其中 MATH500 BoN@128 达到 79.0%,AIME24 BoN@128 达到 53.3%。

这说明 Agentic Verifier 的提升并不是单纯来自模型参数规模,而是来自验证机制本身。它可以通过正反向检查和工具调用,识别普通 reward model 容易忽略的细微错误。

在顺序扩展中,研究团队测试 verifier 能否帮助 actor 修改答案。流程是:actor 先生成初始解法,verifier 给出 critique,actor 根据反馈进行修正,并可持续迭代多轮。

结果如下图显示,Agentic-Verifier-Qwen3-4B 在第一轮修正中就能带来明显提升。例如在 MATH500 上,第一轮修正后准确率达到 84.2%,错误答案被修正的比例达到 41.6%,而正确答案被错误修改的比例只有 0.6%。这说明它不仅能判断答案对错,还能给出对修改真正有帮助的反馈。

图注:多轮迭代修正实验结果。Agentic-Verifier-Qwen3-4B 在第一轮即可显著提升 actor 表现,例如 MATH500 准确率达到 84.2%,错误答案修正率达到 41.6%,错误改写率仅为 0.6%。

研究团队还进行了多组分析实验。

(1)双向结构消融。Forward-only 和 Backward-only 都能取得不错效果,但完整 Agentic Verifier 表现最好。这说明正向检查和反向追溯具有互补性:前者关注推理链是否成立,后者关注最终结论是否满足题目约束。

图注:双向结构消融实验。Forward-only 和 Backward-only 均有一定效果,但同时使用正向验证和反向验证的完整 Agentic Verifier 表现最好。

(2)训练流程分析。Train-free 版本已经能体现 agentic 框架的优势;SFT 带来进一步提升;SFT+RL 效果最好。这说明合成验证轨迹和强化学习都对模型能力提升有贡献。

图注:训练流程消融实验。Train-free 已能带来提升,SFT 进一步增强验证能力,而 SFT+RL 效果最佳,说明合成轨迹训练与强化学习都发挥了作用。

研究团队还在 LiveCodeBench 和 HotpotQA 上测试泛化能力。结果显示,Agentic-Verifier-Qwen3-4B 在代码任务和多跳问答任务中同样取得较好表现,说明这种“正向验证 + 反向验证 + 工具增强”的范式不只适用于数学题,也有潜力迁移到更广泛的复杂推理任务中。

当然,该方法也存在代价。完整 Agentic Verifier 需要更多 token、更长验证轮次和更高推理延迟。因此,它更适合对可靠性要求较高的复杂推理场景,而不一定适合所有轻量级部署场景。

03 总结

AgentV-RL 的核心价值不只是刷新 benchmark,而是将 Reward Model 从“静态打分器”推进到“智能体验证器”:它不再只是输入问题和答案后输出一个分数,而是能够先规划检查路径,再通过正向验证、反向追溯和工具调用逐步审查推理过程,最终给出有证据支撑的判断。尽管该方法仍面临推理成本较高、依赖合成数据和工具覆盖有限等问题,但它清楚表明,未来高可靠推理系统中的 verifier 将不再只是辅助模块,而可能成为连接生成、搜索、反思与修正的关键组件。