绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
0
0
不是结束,是开始的结束:写在 Step 3.5 Flash 发布与我在阶跃的一年半
分类: AI技术解析
2026-02-13 11:21:47

作者:Yasmine

地址:https://zhuanlan.zhihu.com/p/2003807022127284335

经授权发布,如需转载请联系原作者

世界上只有一种真正的英雄主义,就是认清了生活的真相后还依然热爱它。

以前初读这句话,我只觉得有些许诗意;做大模型这些年,它才渐渐有了实感。每一次努力去优化、对点、迭代,甚至推倒重来,我却总在大模型这场近乎无限制的格斗里四处碰壁,被打得鼻青脸肿。会被痛揍,会怀疑自己,但最终还是得回到桌前,把问题做透,然后继续热爱。

说来有点灰色幽默,我训练的第一个 LLM 居然是 step2。毕竟在 2024 年 7 月加入阶跃之前,我摸过最大的模型还只是 ResNet-101。后来也有幸参与了从step2时期的 LiveBench、LMSYS,到 O1/R1的复现,再到 step3 和 step3.5 发版的一系列项目。我的工作听起来可能不那么“闪光”,甚至时常有点“无趣”。从 SFT、DPO 的反复迭代,到后面的reasoning能力迭代,合版以及 post-training baseline 的持续调优。

我越来越确信,真正决定能走多远的,往往正是这些不闪光的事。

01 从step3 的失利换来的全局视野

step3 是我第一次真正“失重”。它不如预期的残酷现实,“step3 都不会出现在 paper 的 baseline 里”更是如同一记重拳把我打醒。我曾最觉美味的“Kuyashi”,但真落到自己身上才发现属实难以消化。就像后面一位挚友时常调侃我的那句"真批评你,等下你又受不了了(x"。那一刻我才明白单独的投入,笃定都不值钱,真正有价值的是system-level结果和证据。

kayashi->不甘心

回头看,step3 我最大的问题就是缺少全局视野以及与全流程的沟通和交流,只顾着耕自己的一亩三分地。局部刷分不等于系统变强,局部最优甚至会在下游放大成系统性问题。正如祥雨老师后面教导的“抓大放小”,端到端优先。抓最有 gain 的方向,补最薄弱的环节,用最后的结果说话,让“变强”发生在链路里,而不是在专项的表格里。

02 让改变发生:把玄学炼成科学

迭代效率决定认知上限,很多设计首先服务于“更快试错”

很多人聊 Step 3.5 Flash,会聊性能,速度,指标表现。这些当然重要,但对我来说更核心的一点是,它的迭代过程让我再一次确认:迭代效率决定认知上限。空气中弥漫着ideas,最稀缺的不是点子,而是从“想法”到“证据”的路径。若把验证周期从 24h 压到 12h,把算力规模从 128 卡降到 64,甚至 32 卡,我们获得的有效认知会成倍增长。因此在设计baseline的过程中总需要做compute和performance的trade off,如何选择一个足以验证数据和算法的minimal setting总是一个需要反复验证的事情。在这里要着重感谢Qwen团队的开源工作对于LLMs社区的贡献,从Qwen2.5 32B/14B->Qwen3 8B/30A3都是我们曾经一段时间的baseline迭代的坚实后盾。合版与 baseline 是一种“服务业”,让更多人更快地把事做成不同于一般人觉得合版与baseline是一种“credit assignment”,我觉得合版更像是一种服务业。比如: 尽可能把每个 domain 的需求对清楚,把 expert 的能力稳妥地合进来;和框架与infra 的同学对齐,把训练,推理,评测链路里的效率尽可能提高;收集大家日常迭代的被卡点和痛点,把工具做得更好用,移除一个又一个的barrier。它们未必会出现在聚光灯下,但正是这些“看不见的工程”,决定了团队的速度曲线。也想特别感谢阶跃最年轻的两位小伙伴,在这件事上深刻影响了我——致框架的抽象狂魔,和基建的热心市民!不能消融的创新都是玄学,工程师也要用科学方法做事

关于实验和迭代,我想到一个neta,“不能消融的创新都是玄学”,我们虽然是工程师也要用科学的方法做事情。迭代速度起来之后,下一步就是把每一次提升变成组织可积累的知识,而不是停留在个人经验里。背景是什么,setting 是什么,difference 在哪,对 system 的影响是什么,dynamics 如何演化,最终的 conclusion 是什么,对应的 action 是什么……这些看似琐碎的“格式”,其实是在把不确定性拆解成可交流、可复现、可复用的证据链。我也越来越相信,真正的进步,是把偶然变成必然,把玄学变成可验证的结论。Make it happen

对我来说,Scalability,尤其是 post-training 的 Scalability,需要不断解决两件事:stability (Off-Policy RL for MoE models across diverse tasks) 和 efficiency。没有 stability,复现性无从谈起,算力扩张也只是把噪声放大;没有 efficiency,就无法把验证周期压到足够短,也就很难快速探索当前模型的 intelligence 边界。Agent的基建之于当前的LLMs也许正如之前RLVR的基建之于reasoning model,是下一代范式的入场券。当实验与经验上的直觉相悖之时,需要不断追问,是实验设定不合理?是指标不敏感?是实现细节有偏?是分布漂移?是观测与诊断缺失?debug 越快,进步越快。很多时候,“make it happen”也不是一句口号,而是一种长期主义。敢下注,也愿意投入足够多的 effort,把下注变成可落地、可复用、可迭代的系统。最终沉淀下来的不是某个灵光一现的点子,而是持续把不确定性压缩成确定性的能力。

03 夸一夸阶跃:高斜率的成长,和稀缺的“听劝”

阶跃是一个非常方便 bottom up 推进事情的地方。有同学和大昕老师,祥雨老师做同桌(x),饭搭子,这种近距离的学习与碰撞,本身就是一种想法的加速器。难得的是老板们主打一个听劝,我那句“是不是低估了做大模型的难度”并没有成为我离职的注脚,而是成为了一剂反思复盘的猛药;下午提的需求晚上就有hr和行政的小伙伴开始了落实;随口说了句“老大们还没太感受到工作氛围”,下周就安排上了同桌体验;“技术细节没有了解”,马上论文看得广度比我都多……很多人到了那样的年龄、拿到了那样的成绩,可能会更倾向于固化自己的判断;但他们依然保持自省,愿意听不同声音,愿意被事实校正。阶跃还有一群热衷讨论、也毫不吝于指出问题的小伙伴。在这里的一年多,是我收到挫折、批评与“教育”最多的一段时间,却也恰恰是成长最快的一年。一句句“这是基础的”的箴言时刻提醒,持续校准着我。

04 这不是结束,甚至不是结束的开始

我觉得阶跃的伙伴是一群真正相信 AGI 的人。离我们心目中“足够好”的东西,还有很遥远的距离。很多关键工作远没有做完:更高的 token efficiency、更强的自蒸馏、更顺滑的合版流程、更好的使用体验,以及更具 self-improvement 的能力。

Step3.5 Flash这不是结束,这甚至不是结束的开始。但,这可能是开始的结束。想借这个时刻告诉大家We are so back。