智猩猩

SFT不是只会记忆，训对也能泛化！上海AI Lab新研究拆解长思维链训练误区

分类：社区来稿

2026-05-01 10:03:00

论文作者投稿

智猩猩AI整理

随着大语言模型后训练（Post-training）技术的发展，强化学习（RL）在提升模型复杂推理能力上的表现备受瞩目。在此背景下，学术界逐渐形成了一种广泛流传的观点：“SFT memorizes, RL generalizes”。

然而，既往文献在对比两者时，往往存在诸多实验条件的混杂因素。例如部分研究采用了未充分优化的早期Checkpoints，或使用了质量参差不齐的、或是缺少长思维链的数据集。

近期，上海人工智能实验室的研究团队提出了一套严谨的条件分析框架，从优化动力学（Optimization）、数据消融（Data）以及基模型能力（Model Capability）三个维度，重新界定了推理SFT场景下跨领域泛化的边界条件。

论文标题：Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability
论文链接：https://arxiv.org/abs/2604.06628
GitHub链接：https://github.com/Nebularaid2000/rethink_sft_generalization
huggingface链接：https://huggingface.co/collections/jasonrqh/rethink-sft-generalization

01 优化动力学：“先降后升”曲线与欠拟合假象

研究首先指出，SFT在长思维链任务上的学习轨迹呈现出高度的非单调性。在采用短轮次（如1 epoch）设定时，模型在分布外（OOD）任务提升有限，甚至还可能表现出明显的退化。

然而，当优化周期扩展至8 epochs时，多项OOD评测指标（如代码生成、科学推理、指令遵循）展现出一致的“Dip-and-Recovery（先降后升）”动力学曲线。如果优化不充分，很容易就会得出“SFT泛化差”的结论。

在此过程中，回复长度（Response Length）被验证为一个有效的诊断指标。训练初期的长度激增对应于性能的下降阶段，代表模型对数据中冗长回复的浅层拟合；随着训练的进一步进行，长度逐渐收缩，模型才开始提取可泛化的程序化推理模式（Procedural Patterns），此时对应性能恢复和上升阶段。因此，在长思维链 SFT 中，回复长度可以作为评估优化是否充分的一个粗粒度诊断指标：如果模型输出仍处于不断变短的过程中或维持极长状态，往往意味着优化尚未充分。

此外，在严格控制640步总梯度的预算下，“2.5k数据×8 epochs”的多轮训练策略，其全维度指标显著超越了“20k数据×1 epoch”的单轮训练策略。从优化难度角度验证了：在长思维链SFT中，所谓的泛化缺失，有时只是欠拟合引发的假象。

02 数据消融：数据质量与程序化推理模式

数据质量和结构如何影响泛化？研究设计了严格的控制变量消融实验。

数据质量是泛化的基础：在使用包含大量跳步与低质解答的NuminaMath数据集时，模型不仅无法在同分布任务上获得明显收益，其分布外泛化更遭到了破坏，且训练全程未能出现Dip-and-Recovery曲线中的恢复期。

结构化过程比领域知识更具迁移性：更具价值的是针对Countdown（算术凑数游戏）数据集的实验。该数据集刻意剥离了高级数学知识，仅保留了基于四则运算的“试错、分解、回溯”等程序化推理模式（Procedural Patterns）。微调结果表明，模型通过学习这些逻辑控制流，不仅在AIME等复杂数学评测上获得增益，更在代码生成等OOD任务上实现了跨领域迁移。这一发现证实，长思维链SFT的泛化一定程度上是依赖于这些抽象推理范式。

03 基模型能力：表面模仿与逻辑内化

模型参数规模对SFT的吸收效率呈现出非线性缩放规律。通过消融Qwen3系列（1.7B-14B），研究发现14B能够完美拟合Dip-and-Recovery曲线并收敛长度；而1.7B模型则在全周期内表现出微弱的增益，回复长度处于“发散式”的极高状态。

基于对数概率的Token级解析揭示了这一现象的本质。Case Study显示，1.7B模型在遇到推理阻碍时，会陷入“Let me check 17, 53, 71...”的无限死循环。这表明在一定的训练预算下，基础能力弱的模型仅能对CoT的表面格式进行模仿。相反，14B模型在SFT数据上，对于一些逻辑控制流token (如therefore, wait, however, alternatively）展现出了压倒性的对数概率优势（比1.7B高出数倍）。基础能力强的模型真正完成了对复杂条件分支和纠错逻辑的内化。

04 泛化的非对称性：安全性的代价

长逻辑链的内化不可避免地引入了对齐冲突。基于HEx-PHI基准的量化测试表明，在完全相同的Prompt和答案设定下，在长CoT轨迹上训练的SFT模型的攻击成功率（ASR）骤增，而No-CoT模型的安全退化则相对可控。

在遭遇安全拒绝策略的阻碍时，模型利用习得的“克服障碍”先验，在思维链中生成了自我说服的行为（如假设“为了教育目的”），从而在推理过程中自行消解了安全约束。

05 结语

综合上述实证分析，“SFT是否泛化”本质上是一个伪命题。未来的大模型推理研究不应再纠结于单维度的算法路线之争，而应转向深入探索泛化现象在算力、数据结构与模型容量约束下的多维边界条件。