智猩猩

4500美元复现DeepSeek R1的神奇，RL让1.5B小模型推理超过o1预览版 | UC伯克利谭嗣俊博士讲座预告

分类： DeepSeek

2025-02-17 11:40:54

DeepSeek R1和DeepSeek R1-Zero的横空出世，是开源大型语言模型在推理能力上的重大突破，进而掀起了持续走高的研究热度，尤其是在青年研究人员当中，不仅激发了广泛且深入的思考，更是推动了更多优秀成果的涌现。

为此，智猩猩最新企划「AI新青年讲座DeepSeek R1与推理模型专题」，将邀请学术界和工业界的青年研究人员，分享最新洞见，讲解优秀成果。

第一讲将关注加州大学伯克利分校研究团队最新提出的开源项目DeepScaleR。该项目的一作为加州大学伯克利分校在读博士谭嗣俊。谭嗣俊博士等研究人员基于Deepseek-R1-Distilled-Qwen-1.5B模型，通过简单的强化学习微调，得到了全新的推理小模型DeepScaleR-1.5B-Preview。

该模型在只有1.5B参数的情况下，经过4万个高质量数学问题的训练，在数学推理任务中超越了OpenAI的O1-Preview模型，展示了强化学习在小模型中的无限潜力。而完成这一复现，训练一共用了3800个A100 GPU小时，成本最终只需约4500美元。

具体而言，第一步，训练模型进行短思考。团队使用DeepSeek的GRPO强化学习算法，设定了8k的上下文长度来训练模型，以鼓励高效思考；接下来，模型被训练进行长思考。强化学习训练扩展到16K和24K token，以解决更具挑战性、此前未解决的问题。

在AIME 2024测试中，DeepScaleR-1.5B-Preview的pass@1准确率达到43.1%，相比Deepseek-R1-Distilled-Qwen-1.5B模型提升了14.3%，相比o1-preview提升了3.1%。而在MATH-500中，DeepScaleR-1.5B-Preview的性能也超过了o1-preview。

DeepScaleR-1.5B-Preview一经公开，就引起了广泛讨论。目前，研究团队已开源模型、数据、训练代码和训练日志。

北京时间2月17日15点，谭嗣俊博士受邀带来讲座，主题为《DeepScaleR: 强化学习让小模型推理超越o1-preview》。

讲者

谭嗣俊，加州大学伯克利分校在读博士

师从Raluca Ada Popa, 目前的主要研究方向是大模型后训练与大模型安全。在计算机系统（OSDI), 安全 (Oakland) 和人工智能 (NeurIPS, ICLR, EMNLP)顶会发表过多篇一作论文。

第 1 讲

主题

《DeepScaleR: 强化学习让小模型推理超越o1-preview》

提纲

1、Deepseek-R1带来的启示

2、强化学习在大模型训练中的难点

3、迭代长度训练:解放小模型的推理潜力

4、与其他小模型在推理能力上的对比分析

5、 DeepScaleR未来展望与计划

直播信息

直播时间：2月17日15:00

项目成果

标题

《DeepScaleR: Surpassing O1-Preview with a 1.5B Model by Scaling RL》

项目地址

https://pretty-radio-b75.notion.site/DeepScaleR-Surpassing-O1-Preview-with-a-1-5B-Model-by-Scaling-RL-19681902c1468005bed8ca303013a4e2

如何报名与入群

有讲座直播观看需求的朋友，可以扫码添加小助手木瑾，发送私信“DS讲座01”进行报名，报名通过后将给到直播地址。

针对此次讲座，也有组建学习群。希望入群参与探讨的，也可以与木瑾进行申请。