- 1、Long-CoT的相关工作背景介绍
- 2、增强LLM推理的思维缓存方法——Buffer of Thought
- 3、ReasonFlux:通过两阶段的SFT+RL来提升LLM利用思维模板规划解题路径的能力
- 4、基于思维模板的Long-CoT范式在未来的展望和方向
自OpenAI 发布 o1模型以来,推理模型成为备受关注的热点话题,而开放式推理模型 DeepSeek-R1的出现,更是让提升LLM的复杂推理能力成为当下研究的焦点。
为了提升LLM在复杂问题上的推理能力,研究人员提出了多种推理策略,主要分为深度搜索和奖励模型引导两类方法。深度搜索方法是通过引入思维树(ToT)和思维图(GoT),让LLM探索多条推理路径,并通过自我评估来选择。奖励模型引导方法则是利用奖励模型评估推理步骤的质量。然而,这些方法存在计算成本高、依赖手动设计的搜索策略和实例/步骤级奖励等问题,并且泛化能力也受限。
为了实现推理路径的高效与精确搜索,北京大学数据与智能实验室(PKU-DAIR)联合加州大学伯克利分校和斯坦福大学提出了增强LLM推理能力的思维缓存方法“Buffer of Thought”。同时,普林斯顿大学与PKU-DAIR提出了分层LLM推理框架ReasonFlux,以高效规划复杂问题的解决路径。
思维缓冲区(Buffer of Thoughts,BoT)是一种新颖且多功能的思维增强推理方法。该方法通过构建一个元缓冲区来存储从各种问题解决过程中提炼出的信息丰富的高级思维,即思维模板。随后针对每个问题,该方法能够自适应地检索和实例化相关的思维模板。同时,为了确保可扩展性和稳定性,构建了一个缓冲区管理器来动态更新元缓冲区,从而实现元缓冲区容量的增强。
ReasonFlux是一个分层的LLM推理框架。首先,选择各类高难度数学推理题,借助 LLM分析解题思路,总结出约 500 个高质量、面向解决方案的思维模板。其次,通过两阶段的SFT+RL来提升LLM利用思维模板高效准确的规划解题路径的能力,并且利用基于思维模板的test-time scaling策略,高效规划复杂问题的解决路径。
4月29日晚7点30分,智猩猩邀请到论文主要作者,新加坡国立大学研究生余昭辰参与「AI新青年讲座DeepSeek R1与推理模型专题」第2讲,主讲《思维模板:LLM推理能力增强新范式》
