DeepScaleR: 强化学习让小模型推理超越o1-preview
智猩猩AI新青年讲座DeepSeek R1与推理模型专题 2025/02/17 15:00:00
课程讲师
课程提纲
- 1、Deepseek-R1带来的启示
- 2、强化学习在大模型训练中的难点
- 3、迭代长度训练:解放小模型的推理潜力
- 4、与其他小模型在推理能力上的对比分析
- 5、 DeepScaleR未来展望与计划
课程简介
第一讲将关注加州大学伯克利分校研究团队最新提出的开源项目DeepScaleR。该项目的一作为加州大学伯克利分校在读博士谭嗣俊。谭嗣俊博士等研究人员基于Deepseek-R1-Distilled-Qwen-1.5B模型,通过简单的强化学习微调,得到了全新的推理小模型DeepScaleR-1.5B-Preview。
该模型在只有1.5B参数的情况下,经过4万个高质量数学问题的训练,在数学推理任务中超越了OpenAI的O1-Preview模型,展示了强化学习在小模型中的无限潜力。而完成这一复现,训练一共用了3800个A100 GPU小时,成本最终只需约4500美元。
具体而言,第一步,训练模型进行短思考。团队使用DeepSeek的GRPO强化学习算法,设定了8k的上下文长度来训练模型,以鼓励高效思考;接下来,模型被训练进行长思考。强化学习训练扩展到16K和24K token,以解决更具挑战性、此前未解决的问题。
在AIME 2024测试中,DeepScaleR-1.5B-Preview的pass@1准确率达到43.1%,相比Deepseek-R1-Distilled-Qwen-1.5B模型提升了14.3%,相比o1-preview提升了3.1%。而在MATH-500中,DeepScaleR-1.5B-Preview的性能也超过了o1-preview。
DeepScaleR-1.5B-Preview一经公开,就引起了广泛讨论。目前,研究团队已开源模型、数据、训练代码和训练日志。
北京时间2月17日15点,谭嗣俊博士受邀带来讲座,主题为《DeepScaleR: 强化学习让小模型推理超越o1-preview》。
精彩问答
提问
提问
