智猩猩

超越GRPO！阿里开源强化学习方法 R³L，复杂推理能力最高提升52%

分类： AI论文解读

2026-01-14 19:40:00

智猩猩AI整理

编辑：没方

强化学习推动了大型语言模型（LLM）在推理与智能体能力方面的进步，然而现有方法在探索（exploration）与利用（exploitation）两方面均面临挑战。在探索方面，现有方法在困难任务上的成功率较低，且从头开始反复执行完整推理轨迹（rollout）的成本高昂；在利用方面，存在信用分配粗糙和训练不稳定问题：轨迹级别的奖励机制会因后续错误而惩罚原本合理的前缀部分；而失败占主导的样本会淹没少数正向信号，导致优化过程缺乏建设性方向。

为此，阿里联合香港科技大学、苏州大学提出强化学习方法 R³L ，该方法引入了语言引导探索、关键点信用分配（Pivotal Credit Assignment）和正向信号增强（Positive Amplification）机制。在智能体任务和复杂推理任务上的实验表明，R³L 相较基线方法取得了 5% 至 52% 的相对性能提升，同时保持了训练的稳定性。

论文标题：R³L : Reflect-then-Retry Reinforcement Learning with Language-Guided Exploration, Pivotal Credit, and Positive Amplification
论文链接：https://arxiv.org/pdf/2601.03715
项目地址:https://github.com/shiweijiezero/R3L

01 方法

如图2所示，R³L 在轨迹合成与策略优化之间交替进行。

在合成阶段，采用“反思-重试”机制，利用语言反馈诊断失败原因，并从识别出的关键点（pivot points）重启生成过程，从而将失败尝试转化为成功轨迹。
在优化阶段，策略模型同时从原始轨迹（base trajectories）和重试轨迹（retry trajectories）中学习。研究团队引入关键点信用分配（Pivotal Credit Assignment），将梯度更新聚焦于存在对比信号的分歧后缀部分，通过增强正向信号对成功轨迹赋予更高权重，确保优化过程由正向信号主导，从而稳定off-policy训练过程。

完整的R³L训练流程如算法1所示：

（1）语言引导的反思-重试（Language-Guided Reflect-Then-Retry）

为克服随机采样成功率低的问题，R³L采用了一种“反思-重试”机制：利用语言反馈诊断失败轨迹中的错误并定位失败点，随后从这些关键点重新开启生成，并辅以修正性指导，从而以更低的 rollout 成本合成成功轨迹。值得注意的是，训练数据中会移除指导性描述，使模型在推理阶段能够内化这些修正策略。

研究团队构建了四类训练数据：

来自随机采样的基础轨迹

为了与标准强化学习方法进行公平比较，将采样预算的一半分配给标准探索，另一半用于重试样本，因此总采样量保持不变。给定一个查询 x ，从策略模型中采样 N/2 条基础轨迹。这些轨迹既用于建立基线性能，也为后续的反思提供原始素材：

来自引导修正的蒸馏轨迹

对于每条基础样本，模型会对该轨迹进行反思并生成结构化诊断，包括结果分类（成功、成功但低效、失败）、根本原因分析、改进建议，以及问题首次显现的转折点k_pivot。研究团队将转折点前的步骤称为前缀（τ<k_pivot），转折点及之后的步骤称为后缀（τ≥k_pivot），信用分配与轨迹拼接均在此步骤层级进行。

对于未被判定为完全成功的轨迹，该诊断结果会被嵌入到一个指导提示（guidance prompt）中，并以此为条件从转折点 k_pivot重新开始生成，从而获得一个修正后的后缀。

关键的是，研究团队在构建训练样本时，将原始前缀与修正后的后缀拼接在一起，刻意省略了中间的指导提示。这一设计迫使模型内化修正逻辑，而非依赖显式的外部提示，从而确保所学能力能直接迁移到推理阶段：

学习反思与重试

反思与重试是可学习的技能，需要在持续训练过程中通过显式监督来维持，因此研究团队设计了两项辅助任务。筛选出重试轨迹比原始尝试获得更高奖励的实例，作为经过验证的成功修正样本。

(i)反思任务训练模型在给定轨迹与环境反馈 f 的情况下生成结构化诊断 r ；

(ii)重试任务则训练模型在给定前缀与指导信息 g 拼接后（记作⊕）生成修正后缀。

训练分组：数据集 D_base和 D_distill组成用于强化学习优化的探索组G_explore ，而 D_reflect和 D_retry 则作为辅助的监督微调（SFT）目标，在整个训练过程中维持探索引擎。R³L将预算平均分配给基础轨迹与重试轨迹，从该组的所有样本中学习，并通过辅助任务显式维持反思与重试能力。

（2）关键信用分配

为了更精确地分配信用，研究团队有效利用探索组内部的对比结构。基础轨迹与蒸馏轨迹在转折点k_pivot之前具有完全相同的前缀，该共享部分无法提供关于哪条路径更优的信息，只有在分歧的后缀部分才揭示哪个决策是正确的。

研究团队引入梯度掩码（gradient mask）将共享前缀从参数更新中排除。对于第 k 轮中的第 t 个 token，掩码定义如下：

转折点之前的 token 在梯度计算中被赋予零权重，从而使优化聚焦于关键的分支决策。

（3）正向增强（Positive Amplification）

鉴于困难任务中失败样本占主导地位，且“反思-重试”会生成off-policy的数据，可能引发训练不稳定，R³L引入正向信号增强机制，只需引入统一的放大因子 α＞1即可满足要求，轨迹优势定义为：

在组内获得最大奖励的轨迹将获得完整的放大因子 α ，其他具有正优势的轨迹按比例缩放，而负优势的轨迹保持不变。通过放大正向优势，建设性梯度变得足够强从而在组内占据主导地位，引导概率质量集中于已发现的有效解，而非任其分散。研究团队发现 α=3.0在多种任务上均表现良好。

结合关键点掩码与优势增强，R³L的目标函数为：

其中，L_SFT 是在经过验证的成功修正样本上进行的辅助监督微调损失，用于在训练过程中维持模型的反思与重试能力。与标准 GRPO 不同，研究团队移除了重要性采样和 KL约束：

重要性采样在处理由指导生成的重试轨迹时不可靠，因为其行为分布与当前策略存在差异；
KL 约束不再必要，因为正向信号增强已能有效防止策略向高熵方向漂移。

这种简化降低了内存开销和计算成本，同时仍保持训练的稳定。

02 评估

表1展示了R³L与不同强化学习方法，在智能体环境和数学推理基准上的评估结果。

在智能体环境中，R³L 在 9 项设置中 8 项排名第一。使用1.5B模型时，在ALFWorld、WebShop 和 ScienceWorld 上分别达到 0.928、0.663 和 0.385。其提升在 WebShop 和 ScienceWorld 上尤为显著，分别超越最强基线 8.0% 和 5.2%，这得益于关键点信用分配有效保护了正确前缀免受后续错误的惩罚。

在数学推理任务上，使用 7B 模型的R³L 在 GSM8K、Math500 和 OlympiadBench 上分别达到 0.897、0.658 和 0.301。未取得第一的是1.5B 模型在 GSM8K 上的表现，Critique-GRPO以0.798略胜R³L 0.721。原因在于 GSM8K 任务相对简单，随机采样已能产生足够多的成功轨迹。尽管如此，R³L 相较GRPO仍在GSM8K实现了52%的性能提升。而对于其他更复杂的基准任务，则需要精心设计的机制来实现高质量轨迹合成、细粒度信用分配以及从稀疏正向信号中稳定学习来实现突破。

消融实验结果如表2所示。

移除反思-重试机制会导致严重的性能下降。在GSM8K上，从 0.721 降至 0.562；在WebShop上，从 0.663 降至 0.628。这表明仅靠随机采样无法有效探索稀疏奖励环境，而主动的轨迹合成对于发现有效解至关重要。

去除正向增强会导致所有基准的性能下降。在ALFWorld上，从 0.928 降至 0.881；在GSM8K上，从 0.721 降至 0.685。在以失败样本为主的场景，大量负样本会淹没稀少的正向信号；若无增强机制，梯度更新将聚焦于抑制错误，而非强化正确路径。

去除关键点信用分配带来的影响虽最小但保持一致，在ALFWorld上，从 0.928 降至 0.914；在GSM8K上，从 0.721 降至 0.706。该机制在长周期任务中效果最为显著，因为当错误发生时轨迹级奖励往往会惩罚原本有效的前缀步骤。