绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
0
0
R2还是V4?Model1引爆DeepSeek新一代模型猜想,硅谷网友:美国模型的大麻烦要来了
分类: 大语言模型
2026-01-21 18:29:00

智猩猩AI整理

编辑:没方、汐汐

2026年1月20日,恰逢DeepSeek-R1发布一周年,一个代号为Model1的模型,意外出现在DeepSeek的FlashMLA代码更新中,成为这个周年庆里最惊喜的隐藏彩蛋,瞬间引发了大量网友的关注!

在梳理FlashMLA的代码更新时发现,Model1的身影贯穿于28处记录中。值得注意的是,在核心代码逻辑里Model1与V3.2是并列的,两者拥有专属的架构配置。这意味着Model1绝非简单的版本迭代,而是一条脱离V3系列现有框架的全新技术路线。

结合DeepSeek此前发布的解决大模型训练稳定性问题的mHC架构、优化 MoE 模型知识检索的Engram条件记忆模块以及这次新模型Model1的现身,这些技术信号共同预热了DeepSeek的新模型即将问世!

我们整理了社交平台上关于Model1模型的大量评论,可直观感受外界对DeepSeek这款神秘新模型的多元解读与热议。

01 R2还是V4?Model1引发DeepSeek新一代模型的猜想

网络上有很多技术人员对DeepSeek Model1进行了分析,并给出了很多独到的技术见解,以及对DeepSeek之后即将发布的大模型的预测,其中主要是针对模型的架构、其能力和参数量等几个方面。

在关于Model1的信息检索过程中,有一处小细节标注了F3(F3是DeepSeek内部的平台代号),这比单纯的Model1更具备信息量,这也是它唯一的明确提及。F3似乎是他们SM90/Hopper平台配置的代号(Hopper是Nvidia的架构名称,SM90是计算能力编号)。

同时,网友分析指出,这个神秘的Model1是512维架构,并且针对了Nvidia的Blackwell B200 GPU专门优化,同时还有用于上下文的token级稀疏MLA上下文。

值得注意的是,新代码注释提到Model1的k_cache排列为576字节,与V3.2的656字节不同,可能为V4或R2,新模型可能真的快要发布了。

有网友分析FlashMLA仓库,表示Model1使用DSA(非NSA)、64 heads (GQA风格)、attention sinks和split KV,添加kimi风格64 heads和更深集成lightning indexer,可能是FlashAttention3的变体。

另外,也有网友对2月将到来的DeepSeek新模型V4进行了预测,表示新的模型或许可以下放到消费端,从而改变消费者规模。1M上下文,通过双RTX 4090或单5090就能原生运行,主导编程,架构转变改变消费者规模可能性,这个模型可能就是Model1。

GitHub中DeepSeek的FlashMLA库代码片段引用Model1,并且有新的KV缓存优化,stripe为576B(用于稀疏fp8解码),比V3.2的656B更高效。这种针对大规模推理设计,可能为R1继任者。

DeepSeek-V4泄露:1万亿参数的Engram怪物,将改变一切,可能就是Model1。

一个网友称“DeepSeek V4无疑将会引发另一场震撼”,DeepSeek的新模型在代码能力堪比Opus 4.5和GPT-5.2的程度上,便宜30到60倍,这是一个巨大的优势!

除了R系列和V系列模型,还有网友猜测,如果Model1并不是一个占位符,而是一个真的模型的名字,那么对DeepSeek来说,未来模型的发布将可能会是一个轻松频繁的事情!

02 下一个DeepSeek时刻即将到来,硅谷网友:美国模型的大麻烦来了

回顾DeepSeek的技术战略,其打造出追求极致综合性能的V系列模型与专注复杂推理的R系列模型,共同构筑全球大模型领域的核心竞争力。

如今,Model1在代码库中的密集曝光,绝非偶然,而是新模型即将登场的明确信号——从与V3.2并列的独立架构配置、专属的KV缓存优化与fp8精度支持,到极有可能整合mHC架构、Engram记忆模块等前沿技术成果,这些技术内容都在印证:这款神秘模型已完成核心技术储备,进入发布倒计时阶段。

DeepSeek 震撼硅谷一年来,其技术创新与战略布局备受硅谷同行重视。如今 DeepSeek 的任何细微动向,都会引发硅谷的密切关注与强烈反应。

同时,网友也在期待今年DeepSeek将要新发布的Model1会不会像去年一样给全球科技圈带来一个新的DeepSeek时刻。

在全球大模型和技术竞争本就非常火热的环境下,Model1的来袭,让竞争愈发激烈。

有美国网友直言道,总有一天,美国人会真正审视中国,并感到震惊!人们怎么还没意识到,DeepSeek 的性价比高得惊人,它的成本只是其他任何模型的四分之一。他们2月份的新模型V4将给美国模型带来巨大的麻烦。

无论是业界期待已久、迟迟未露真容的R1继任者R2,还是多次被爆料将在2月春节前后登场且主打超强代码生成能力的V4,Model1都极有可能是两者之一的技术雏形,甚至是承载全新突破的下一代旗舰核心。

从网友的热烈讨论中不难看出,市场早已对DeepSeek的新一代模型翘首以盼!期待V4能下放到消费端,这或许可以让双RTX 4090或单卡5090等消费级显卡也能流畅运行1M上下文的强大能力。期待Model1正式发布后能延续R1的传奇,在复杂推理领域再攀高峰。也更希望这款新模型能像去年的R1一样,再次掀起全球大模型领域的技术风暴,续写“DeepSeek时刻”的辉煌。