智猩猩

不是结束，是开始的结束：写在 Step 3.5 Flash 发布与我在阶跃的一年半

分类： AI技术解析

2026-02-13 11:21:47

作者：Yasmine

地址：https://zhuanlan.zhihu.com/p/2003807022127284335

经授权发布，如需转载请联系原作者

世界上只有一种真正的英雄主义，就是认清了生活的真相后还依然热爱它。

以前初读这句话,我只觉得有些许诗意；做大模型这些年，它才渐渐有了实感。每一次努力去优化、对点、迭代，甚至推倒重来，我却总在大模型这场近乎无限制的格斗里四处碰壁，被打得鼻青脸肿。会被痛揍，会怀疑自己，但最终还是得回到桌前，把问题做透，然后继续热爱。

说来有点灰色幽默，我训练的第一个 LLM 居然是 step2。毕竟在 2024 年 7 月加入阶跃之前，我摸过最大的模型还只是 ResNet-101。后来也有幸参与了从step2时期的 LiveBench、LMSYS，到 O1/R1的复现，再到 step3 和 step3.5 发版的一系列项目。我的工作听起来可能不那么“闪光”，甚至时常有点“无趣”。从 SFT、DPO 的反复迭代，到后面的reasoning能力迭代，合版以及 post-training baseline 的持续调优。

我越来越确信，真正决定能走多远的，往往正是这些不闪光的事。

01 从step3 的失利换来的全局视野

step3 是我第一次真正“失重”。它不如预期的残酷现实，“step3 都不会出现在 paper 的 baseline 里”更是如同一记重拳把我打醒。我曾最觉美味的“Kuyashi”，但真落到自己身上才发现属实难以消化。就像后面一位挚友时常调侃我的那句"真批评你，等下你又受不了了（x"。那一刻我才明白单独的投入，笃定都不值钱，真正有价值的是system-level结果和证据。

kayashi->不甘心

回头看，step3 我最大的问题就是缺少全局视野以及与全流程的沟通和交流，只顾着耕自己的一亩三分地。局部刷分不等于系统变强，局部最优甚至会在下游放大成系统性问题。正如祥雨老师后面教导的“抓大放小”，端到端优先。抓最有 gain 的方向，补最薄弱的环节，用最后的结果说话，让“变强”发生在链路里，而不是在专项的表格里。

02 让改变发生：把玄学炼成科学

迭代效率决定认知上限，很多设计首先服务于“更快试错”

很多人聊 Step 3.5 Flash，会聊性能，速度，指标表现。这些当然重要，但对我来说更核心的一点是，它的迭代过程让我再一次确认：迭代效率决定认知上限。空气中弥漫着ideas，最稀缺的不是点子，而是从“想法”到“证据”的路径。若把验证周期从 24h 压到 12h，把算力规模从 128 卡降到 64，甚至 32 卡，我们获得的有效认知会成倍增长。因此在设计baseline的过程中总需要做compute和performance的trade off，如何选择一个足以验证数据和算法的minimal setting总是一个需要反复验证的事情。在这里要着重感谢Qwen团队的开源工作对于LLMs社区的贡献，从Qwen2.5 32B/14B->Qwen3 8B/30A3都是我们曾经一段时间的baseline迭代的坚实后盾。合版与 baseline 是一种“服务业”，让更多人更快地把事做成不同于一般人觉得合版与baseline是一种“credit assignment”，我觉得合版更像是一种服务业。比如: 尽可能把每个 domain 的需求对清楚，把 expert 的能力稳妥地合进来；和框架与infra 的同学对齐，把训练，推理，评测链路里的效率尽可能提高；收集大家日常迭代的被卡点和痛点，把工具做得更好用，移除一个又一个的barrier。它们未必会出现在聚光灯下，但正是这些“看不见的工程”，决定了团队的速度曲线。也想特别感谢阶跃最年轻的两位小伙伴，在这件事上深刻影响了我——致框架的抽象狂魔，和基建的热心市民！不能消融的创新都是玄学，工程师也要用科学方法做事

关于实验和迭代，我想到一个neta，“不能消融的创新都是玄学”，我们虽然是工程师也要用科学的方法做事情。迭代速度起来之后，下一步就是把每一次提升变成组织可积累的知识，而不是停留在个人经验里。背景是什么，setting 是什么，difference 在哪，对 system 的影响是什么，dynamics 如何演化，最终的 conclusion 是什么，对应的 action 是什么……这些看似琐碎的“格式”，其实是在把不确定性拆解成可交流、可复现、可复用的证据链。我也越来越相信，真正的进步，是把偶然变成必然，把玄学变成可验证的结论。Make it happen

对我来说，Scalability，尤其是 post-training 的 Scalability，需要不断解决两件事：stability (Off-Policy RL for MoE models across diverse tasks) 和 efficiency。没有 stability，复现性无从谈起，算力扩张也只是把噪声放大；没有 efficiency，就无法把验证周期压到足够短，也就很难快速探索当前模型的 intelligence 边界。Agent的基建之于当前的LLMs也许正如之前RLVR的基建之于reasoning model，是下一代范式的入场券。当实验与经验上的直觉相悖之时，需要不断追问，是实验设定不合理？是指标不敏感？是实现细节有偏？是分布漂移？是观测与诊断缺失？debug 越快，进步越快。很多时候，“make it happen”也不是一句口号，而是一种长期主义。敢下注，也愿意投入足够多的 effort，把下注变成可落地、可复用、可迭代的系统。最终沉淀下来的不是某个灵光一现的点子，而是持续把不确定性压缩成确定性的能力。

03 夸一夸阶跃：高斜率的成长，和稀缺的“听劝”

阶跃是一个非常方便 bottom up 推进事情的地方。有同学和大昕老师，祥雨老师做同桌（x），饭搭子，这种近距离的学习与碰撞，本身就是一种想法的加速器。难得的是老板们主打一个听劝，我那句“是不是低估了做大模型的难度”并没有成为我离职的注脚，而是成为了一剂反思复盘的猛药；下午提的需求晚上就有hr和行政的小伙伴开始了落实；随口说了句“老大们还没太感受到工作氛围”，下周就安排上了同桌体验；“技术细节没有了解”，马上论文看得广度比我都多……很多人到了那样的年龄、拿到了那样的成绩，可能会更倾向于固化自己的判断；但他们依然保持自省，愿意听不同声音，愿意被事实校正。阶跃还有一群热衷讨论、也毫不吝于指出问题的小伙伴。在这里的一年多，是我收到挫折、批评与“教育”最多的一段时间，却也恰恰是成长最快的一年。一句句“这是基础的”的箴言时刻提醒,持续校准着我。

04 这不是结束，甚至不是结束的开始

我觉得阶跃的伙伴是一群真正相信 AGI 的人。离我们心目中“足够好”的东西，还有很遥远的距离。很多关键工作远没有做完：更高的 token efficiency、更强的自蒸馏、更顺滑的合版流程、更好的使用体验，以及更具 self-improvement 的能力。

Step3.5 Flash这不是结束，这甚至不是结束的开始。但，这可能是开始的结束。想借这个时刻告诉大家We are so back。