绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
思维模板:LLM推理能力增强新范式
智猩猩AI新青年讲座DeepSeek R1与推理模型专题 2025/04/29 19:30:00
课程讲师

新加坡国立大学硕士在读,北京大学数据与智能实验室(PKU-DAIR)实习生,研究方向为扩散模型与大语言模型,已在ICLR、ICML、NeurIPS 等顶会上一作发表多篇论文,担任NeurIPS,ICLR, AISTATS等顶会审稿人。

余昭辰
新加坡国立大学 硕士研究生

新加坡国立大学硕士在读,北京大学数据与智能实验室(PKU-DAIR)实习生,研究方向为扩散模型与大语言模型,已在ICLR、ICML、NeurIPS 等顶会上一作发表多篇论文,担任NeurIPS,ICLR, AISTATS等顶会审稿人。

课程提纲
  • 1、Long-CoT的相关工作背景介绍
  • 2、增强LLM推理的思维缓存方法——Buffer of Thought
  • 3、ReasonFlux:通过两阶段的SFT+RL来提升LLM利用思维模板规划解题路径的能力
  • 4、基于思维模板的Long-CoT范式在未来的展望和方向
课程简介

自OpenAI 发布 o1模型以来,推理模型成为备受关注的热点话题,而开放式推理模型 DeepSeek-R1的出现,更是让提升LLM的复杂推理能力成为当下研究的焦点。

为了提升LLM在复杂问题上的推理能力,研究人员提出了多种推理策略,主要分为深度搜索和奖励模型引导两类方法。深度搜索方法是通过引入思维树(ToT)和思维图(GoT),让LLM探索多条推理路径,并通过自我评估来选择。奖励模型引导方法则是利用奖励模型评估推理步骤的质量。然而,这些方法存在计算成本高、依赖手动设计的搜索策略和实例/步骤级奖励等问题,并且泛化能力也受限。

为了实现推理路径的高效与精确搜索,北京大学数据与智能实验室(PKU-DAIR)联合加州大学伯克利分校和斯坦福大学提出了增强LLM推理能力的思维缓存方法“Buffer of Thought”。同时,普林斯顿大学与PKU-DAIR提出了分层LLM推理框架ReasonFlux,以高效规划复杂问题的解决路径。

思维缓冲区(Buffer of Thoughts,BoT)是一种新颖且多功能的思维增强推理方法。该方法通过构建一个元缓冲区来存储从各种问题解决过程中提炼出的信息丰富的高级思维,即思维模板。随后针对每个问题,该方法能够自适应地检索和实例化相关的思维模板。同时,为了确保可扩展性和稳定性,构建了一个缓冲区管理器来动态更新元缓冲区,从而实现元缓冲区容量的增强。

ReasonFlux是一个分层的LLM推理框架。首先,选择各类高难度数学推理题,借助 LLM分析解题思路,总结出约 500 个高质量、面向解决方案的思维模板。其次,通过两阶段的SFT+RL来提升LLM利用思维模板高效准确的规划解题路径的能力,并且利用基于思维模板的test-time scaling策略,高效规划复杂问题的解决路径。

4月29日晚7点30分,智猩猩邀请到论文主要作者,新加坡国立大学研究生余昭辰参与「AI新青年讲座DeepSeek R1与推理模型专题」第2讲,主讲《思维模板:LLM推理能力增强新范式》

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...