智猩猩

绑定手机号

确认绑定

提问

0/255

提问

×

回答成功

知道了

您已订阅成功，有新课程，我们将第一时间提醒您。

知道了

发送提问成功

回答可在
“我的——我的提问”中查看

知道了

失败

欢迎来智东西

关注我们

智东西

车东西

芯东西

智猩猩

智东西

车东西

芯东西

智猩猩

线下大会

0

0

R2还是V4？Model1引爆DeepSeek新一代模型猜想，硅谷网友：美国模型的大麻烦要来了

分类： AI智能体动态

2026-01-21 18:29:00

智猩猩AI整理

编辑：没方、汐汐

2026年1月20日，恰逢DeepSeek-R1发布一周年，一个代号为Model1的模型，意外出现在DeepSeek的FlashMLA代码更新中，成为这个周年庆里最惊喜的隐藏彩蛋，瞬间引发了大量网友的关注！

在梳理FlashMLA的代码更新时发现，Model1的身影贯穿于28处记录中。值得注意的是，在核心代码逻辑里Model1与V3.2是并列的，两者拥有专属的架构配置。这意味着Model1绝非简单的版本迭代，而是一条脱离V3系列现有框架的全新技术路线。

结合DeepSeek此前发布的解决大模型训练稳定性问题的mHC架构、优化 MoE 模型知识检索的Engram条件记忆模块以及这次新模型Model1的现身，这些技术信号共同预热了DeepSeek的新模型即将问世！

我们整理了社交平台上关于Model1模型的大量评论，可直观感受外界对DeepSeek这款神秘新模型的多元解读与热议。

01 R2还是V4？Model1引发DeepSeek新一代模型的猜想

网络上有很多技术人员对DeepSeek Model1进行了分析，并给出了很多独到的技术见解，以及对DeepSeek之后即将发布的大模型的预测，其中主要是针对模型的架构、其能力和参数量等几个方面。

在关于Model1的信息检索过程中，有一处小细节标注了F3（F3是DeepSeek内部的平台代号），这比单纯的Model1更具备信息量，这也是它唯一的明确提及。F3似乎是他们SM90/Hopper平台配置的代号（Hopper是Nvidia的架构名称，SM90是计算能力编号）。

同时，网友分析指出，这个神秘的Model1是512维架构，并且针对了Nvidia的Blackwell B200 GPU专门优化，同时还有用于上下文的token级稀疏MLA上下文。

值得注意的是，新代码注释提到Model1的k_cache排列为576字节，与V3.2的656字节不同，可能为V4或R2，新模型可能真的快要发布了。

有网友分析FlashMLA仓库，表示Model1使用DSA（非NSA）、64 heads (GQA风格)、attention sinks和split KV，添加kimi风格64 heads和更深集成lightning indexer，可能是FlashAttention3的变体。

另外，也有网友对2月将到来的DeepSeek新模型V4进行了预测，表示新的模型或许可以下放到消费端，从而改变消费者规模。1M上下文，通过双RTX 4090或单5090就能原生运行，主导编程，架构转变改变消费者规模可能性，这个模型可能就是Model1。

GitHub中DeepSeek的FlashMLA库代码片段引用Model1，并且有新的KV缓存优化，stripe为576B（用于稀疏fp8解码），比V3.2的656B更高效。这种针对大规模推理设计，可能为R1继任者。

DeepSeek-V4泄露：1万亿参数的Engram怪物，将改变一切，可能就是Model1。

一个网友称“DeepSeek V4无疑将会引发另一场震撼”，DeepSeek的新模型在代码能力堪比Opus 4.5和GPT-5.2的程度上，便宜30到60倍，这是一个巨大的优势！

除了R系列和V系列模型，还有网友猜测，如果Model1并不是一个占位符，而是一个真的模型的名字，那么对DeepSeek来说，未来模型的发布将可能会是一个轻松频繁的事情！

02 下一个DeepSeek时刻即将到来，硅谷网友：美国模型的大麻烦来了

回顾DeepSeek的技术战略，其打造出追求极致综合性能的V系列模型与专注复杂推理的R系列模型，共同构筑全球大模型领域的核心竞争力。

如今，Model1在代码库中的密集曝光，绝非偶然，而是新模型即将登场的明确信号——从与V3.2并列的独立架构配置、专属的KV缓存优化与fp8精度支持，到极有可能整合mHC架构、Engram记忆模块等前沿技术成果，这些技术内容都在印证：这款神秘模型已完成核心技术储备，进入发布倒计时阶段。

DeepSeek 震撼硅谷一年来，其技术创新与战略布局备受硅谷同行重视。如今 DeepSeek 的任何细微动向，都会引发硅谷的密切关注与强烈反应。

同时，网友也在期待今年DeepSeek将要新发布的Model1会不会像去年一样给全球科技圈带来一个新的DeepSeek时刻。

在全球大模型和技术竞争本就非常火热的环境下，Model1的来袭，让竞争愈发激烈。

有美国网友直言道，总有一天，美国人会真正审视中国，并感到震惊！人们怎么还没意识到，DeepSeek 的性价比高得惊人，它的成本只是其他任何模型的四分之一。他们2月份的新模型V4将给美国模型带来巨大的麻烦。

无论是业界期待已久、迟迟未露真容的R1继任者R2，还是多次被爆料将在2月春节前后登场且主打超强代码生成能力的V4，Model1都极有可能是两者之一的技术雏形，甚至是承载全新突破的下一代旗舰核心。

从网友的热烈讨论中不难看出，市场早已对DeepSeek的新一代模型翘首以盼！期待V4能下放到消费端，这或许可以让双RTX 4090或单卡5090等消费级显卡也能流畅运行1M上下文的强大能力。期待Model1正式发布后能延续R1的传奇，在复杂推理领域再攀高峰。也更希望这款新模型能像去年的R1一样，再次掀起全球大模型领域的技术风暴，续写“DeepSeek时刻”的辉煌。