绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
0
0
RLVR新范式!人大&字节提出基于问题拆解的高效强化学习方法,解锁LLM推理新上限
分类: 社区来稿
2026-02-09 13:04:01

RUC AIBox投稿 

智猩猩AI整理

可验证奖励强化学习(RLVR)常被用于提升大语言模型(LLMs)的推理能力。在训练过程中,模型基于给定的输入进行探索获取经验,并根据经验进行学习和提升。然而,近期的研究发现,模型如何进行有效探索是RLVR训练过程中存在的一个关键问题。对于难度较高的任务,模型难以仅依靠自身的多次探索获得正确的经验,从而限制了其从经验中有效学习的能力。

 

针对上述挑战,中国人民大学和字节跳动的研究者们提出了新的RLVR训练方法 。在该方法中,研究者通过采用不同的任务设置和RLVR 训练策略,分别训练得到一个拆解器(Decomposer)和一个推理器(Reasoner)。在给定问题时,Decomposer 能够将原始的复杂问题拆解为一系列更为简单的子问题,从而为 Reasoner 的探索过程提供额外的信息与思路引导,辅助其进行更高效的推理与探索。在这一框架下,由同一基座模型衍生得到的 Decomposer 与 Reasoner 可以相互促进,实现模型的自我演化,并进一步突破其原有的推理性能上限。

  • 论文标题:Adaptive Ability Decomposing for Unlocking Large Reasoning Model Effective Reinforcement Learning

  • 论文链接:https://arxiv.org/abs/2602.00759

01 方法

 算法流程分为两个部分:Decomposer训练和Reasoner训练。首先,利用 RLVR 训练Decomposer,旨在将原始复杂问题拆解为若干简单的子问题。随后,引入了上下文蒸馏损失(In-Context Distillation Loss, IDL),引导Reasoner从子问题引导下的探索过程中所获得的经验中进行学习。在该方法中,无需对数据进行额外的标注。

1.1 Decomposer的训练过程

研究团队使用RLVR算法对Decomposer进行训练,使其能够将复杂的推理任务拆解为若干个简单的任务,以辅助后续Reasoner的训练过程。研究团队设计了RLVR训练过程的奖励函数,使其能够适配Decomposer的训练。奖励函数分为以下两个部分:

  • Format Reward:Decomposer生成的内容必须符合格式要求,以便于后续进行解析和为Reasoner提供提示。

  • Quality Reward:将问题和Decomposer生成的内容进行拼接后,输入到代理推理模型中(Proxy Reasoner),将其生成的解答的Pass@k指标作为奖励值。

得到两种奖励值后,将其相乘,作为最终Decomposer训练过程的奖励值。

1.2 Reasoner的训练过程

为了能够使研究团队的算法和现有RLVR算法进行结合,研究团队设计了上下文蒸馏损失(In-Context Distillation Loss,IDL),以引导模型基于子问题提示进行探索和学习。具体来说,IDL分为以下三个步骤:

  • 将原问题和Decomposer拆解得到的子问题进行拼接,引导Reasoner基于拼接后的prompt生成解答,其中包括完整推理过程及最终答案。

  • 对于简单的题目,Reasoner无需子问题提示就能做对。因此,IDL中需要使用难度较大的题目。此外,从所有生成的解答中筛选出正确的解答,用于后续的训练中。

  • 得到题目以及解答后,将子问题提示去除,引导模型学习基于原始问题生成对应的解答。损失函数可以由下面的式子表示:

得到IDL之后,将其与RLVR的损失函数进行结合,共同对Reasoner进行训练。

02 实验

2.1 主要实验结果

在不同的模型上应用了研究团队的算法,并和前人工作进行了比较,实验结果如上图所示。通过上述实验,分析得到以下结论:

  • 相比于前人的方法,  能够进一步的提升模型在RLVR训练后的性能。

  • 使用  训练得到的Decomposer,可以辅助任意模型的RLVR训练过程。

  • Decomposer拆解的子问题,可以辅助模型进行探索,但是无法直接提升模型推理能力。

  • 使用外部教师模型的数据,可能会打破模型原始的推理范式,导致模型性能出现波动。

2.2 不同训练方法生成结果的Case Study

研究团队对Decomposer的训练过程进行了分析。在Quality Reward的部分,分别使用Proxy Reasoner的Pass@k指标和Pass@1指标作为奖励函数进行训练,并将其生成结果在上图中进行展示。可以总结得到以下结论:

  • 当使用Pass@k指标作为奖励时,模型会将原问题拆解为子问题。说明子问题形式的提示,有利于提升Reasoner的探索能力(即Pass@k指标)。

  • 当使用Pass@1指标作为奖励时,模型会生成完整的推理过程。说明完成解答形式的提示,有利于提升Reasoner的利用能力(即Pass@1指标)。

  • 总结而言,抽象且粗粒度的提示有助于增强模型的探索能力,而具体且细粒度的提示更有利于提升模型的利用能力。

03 总结

研究团队提出的 能够提升RLVR 过程的有效性。具体而言,首先训练一个拆解器,将复杂问题拆解为多个子问题,并利用这些子问题辅助推理器的 RLVR 训练。在额外信息的引导下,推理器能够进行更有效的探索,从而在 RLVR 过程中持续提升其推理能力。

为深入理解拆解器的特性,研究团队对其训练方式及训练后的行为进行了系统分析。实验结果表明,抽象且粗粒度的提示(如子问题引导)有助于增强模型的探索能力,而具体且细粒度的提示更有利于提升模型的利用能力。总体而言,本工作探讨了如何有效引导模型进行更高效的探索。