绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
0
0
SFT不是只会记忆,训对也能泛化!上海AI Lab新研究拆解长思维链训练误区
分类: 社区来稿
2026-05-01 10:03:00

论文作者投稿

智猩猩AI整理

随着大语言模型后训练(Post-training)技术的发展,强化学习(RL)在提升模型复杂推理能力上的表现备受瞩目。在此背景下,学术界逐渐形成了一种广泛流传的观点:“SFT memorizes, RL generalizes”。

然而,既往文献在对比两者时,往往存在诸多实验条件的混杂因素。例如部分研究采用了未充分优化的早期Checkpoints,或使用了质量参差不齐的、或是缺少长思维链的数据集。

近期,上海人工智能实验室的研究团队提出了一套严谨的条件分析框架,从优化动力学(Optimization)、数据消融(Data)以及基模型能力(Model Capability)三个维度,重新界定了推理SFT场景下跨领域泛化的边界条件。

  • 论文标题:Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

  • 论文链接:https://arxiv.org/abs/2604.06628

  • GitHub链接:https://github.com/Nebularaid2000/rethink_sft_generalization

  • huggingface链接:https://huggingface.co/collections/jasonrqh/rethink-sft-generalization

01 优化动力学:“先降后升”曲线与欠拟合假象

研究首先指出,SFT在长思维链任务上的学习轨迹呈现出高度的非单调性。在采用短轮次(如1 epoch)设定时,模型在分布外(OOD)任务提升有限,甚至还可能表现出明显的退化。

然而,当优化周期扩展至8 epochs时,多项OOD评测指标(如代码生成、科学推理、指令遵循)展现出一致的“Dip-and-Recovery(先降后升)”动力学曲线。如果优化不充分,很容易就会得出“SFT泛化差”的结论。

在此过程中,回复长度(Response Length)被验证为一个有效的诊断指标。训练初期的长度激增对应于性能的下降阶段,代表模型对数据中冗长回复的浅层拟合;随着训练的进一步进行,长度逐渐收缩,模型才开始提取可泛化的程序化推理模式(Procedural Patterns),此时对应性能恢复和上升阶段。因此,在长思维链 SFT 中,回复长度可以作为评估优化是否充分的一个粗粒度诊断指标:如果模型输出仍处于不断变短的过程中或维持极长状态,往往意味着优化尚未充分。

此外,在严格控制640步总梯度的预算下,“2.5k数据×8 epochs”的多轮训练策略,其全维度指标显著超越了“20k数据×1 epoch”的单轮训练策略。从优化难度角度验证了:在长思维链SFT中,所谓的泛化缺失,有时只是欠拟合引发的假象。

02 数据消融:数据质量与程序化推理模式

数据质量和结构如何影响泛化?研究设计了严格的控制变量消融实验。

数据质量是泛化的基础:在使用包含大量跳步与低质解答的NuminaMath数据集时,模型不仅无法在同分布任务上获得明显收益,其分布外泛化更遭到了破坏,且训练全程未能出现Dip-and-Recovery曲线中的恢复期。

结构化过程比领域知识更具迁移性:更具价值的是针对Countdown(算术凑数游戏)数据集的实验。该数据集刻意剥离了高级数学知识,仅保留了基于四则运算的“试错、分解、回溯”等程序化推理模式(Procedural Patterns)。微调结果表明,模型通过学习这些逻辑控制流,不仅在AIME等复杂数学评测上获得增益,更在代码生成等OOD任务上实现了跨领域迁移。这一发现证实,长思维链SFT的泛化一定程度上是依赖于这些抽象推理范式。

03 基模型能力:表面模仿与逻辑内化

模型参数规模对SFT的吸收效率呈现出非线性缩放规律。通过消融Qwen3系列(1.7B-14B),研究发现14B能够完美拟合Dip-and-Recovery曲线并收敛长度;而1.7B模型则在全周期内表现出微弱的增益,回复长度处于“发散式”的极高状态。

基于对数概率的Token级解析揭示了这一现象的本质。Case Study显示,1.7B模型在遇到推理阻碍时,会陷入“Let me check 17, 53, 71...”的无限死循环。这表明在一定的训练预算下,基础能力弱的模型仅能对CoT的表面格式进行模仿。相反,14B模型在SFT数据上,对于一些逻辑控制流token (如therefore, wait, however, alternatively)展现出了压倒性的对数概率优势(比1.7B高出数倍)。基础能力强的模型真正完成了对复杂条件分支和纠错逻辑的内化。

04 泛化的非对称性:安全性的代价

长逻辑链的内化不可避免地引入了对齐冲突。基于HEx-PHI基准的量化测试表明,在完全相同的Prompt和答案设定下,在长CoT轨迹上训练的SFT模型的攻击成功率(ASR)骤增,而No-CoT模型的安全退化则相对可控。

在遭遇安全拒绝策略的阻碍时,模型利用习得的“克服障碍”先验,在思维链中生成了自我说服的行为(如假设“为了教育目的”),从而在推理过程中自行消解了安全约束。

05 结语

综合上述实证分析,“SFT是否泛化”本质上是一个伪命题。未来的大模型推理研究不应再纠结于单维度的算法路线之争,而应转向深入探索泛化现象在算力、数据结构与模型容量约束下的多维边界条件。