智猩猩

一人单挑一个大厂！独立开发者用Claude一周复现谷歌争议压缩算法，Github Star疯涨

分类： AI开源项目

2026-03-31 17:14:00

智猩猩AI整理

编辑：汐汐

3月24日，Google Research重磅放出TurboQuant论文和博客，宣称通过PolarQuant + Walsh-Hadamard旋转，实现KV Cache最高6.4x极致压缩，几乎零质量损失，同时注意力计算速度最高8x提升。消息一出，全球内存芯片股集体跳水，Micron、Samsung、SK Hynix等股价重挫，市场担心“AI内存需求崩盘”。

然而，Google只发论文、不放代码与实现，留下一堆质疑声。真实落地效果如何？跨模型跨硬件鲁棒性怎样？就在行业还在观望时，一个个人开发者Tom Turney站了出来。

他仅用7天，就用Claude辅助，从论文数学公式出发，完整复现并超越原版，打造出turboquant_plus。GitHub短短5天不到就冲到2K stars（目前仍在疯涨）。

一个个人开发者，利用AI工具，仅仅一周时间，就在大厂研究与生产级裂地之间，硬生生撕开一条裂缝。

github仓库地址：https://github.com/TheTom/turboquant_plus/tree/main

01 turboquant_plus：介绍与详解

Tom Turney（前Xoogler，现独立开发者）详细记录了整个过程：

Day 1-3：核心算法实现 + 141个测试用例，Python原型落地。
Day 3-5：移植到llama.cpp，编写Metal GPU内核，支持Apple Silicon。
Day 5-7：极致优化，从739 tok/s飙升至2747 tok/s（3.7x加速）。

视频中，Qwen3.5-35B-A3B MoE模型在MacBook上流畅运行，压缩后KV Cache仅占原先1/4.6，上下文轻松突破32K，长上下文预填充+解码丝滑无卡顿，现场展示Sparse V开启后的提速效果。

他不仅100%还原了Google的PolarQuant + WHT旋转，还在“Plus”层面加入了自己的研究：

Sparse V（注意力门控跳过90%低关注V解压，长上下文提速22.8%）
Asymmetric K/V（Key保持高精度、Value更狠压缩）
Temporal Decay（老token自动降精度）

整个过程公开透明，commit记录清晰可见，从3月24日项目启动，到3月30日Metal内核优化完成，真正做到“7天从0到生产可用”。

根据Github中的完整benchmark（M5 Max 128GB，Qwen系列模型，wikitext-2等测试集），加速数据如下：

压缩率与质量：turbo4（4.25 bit/val）实现3.8x压缩，PPL仅比q8_0高0.23%；turbo3（3.5 bit）4.6x压缩，仍接近baseline。
Prefill速度（Qwen2.5-1.5B）：32K上下文下turbo4达1141 tok/s，turbo3达1204 tok/s，均优于或平q8_0。
Decode速度（Qwen3.5-35B MoE+Sparse V）：长上下文（32K+）提速22.8%，真实70页PDF（~24K上下文）预填充1405 tok/s、解码63.7 tok/s。
额外优化：Sparse V在长上下文跳过90% V解压，整体解码 overhead 降低50%+；block-32布局 + half4向量化蝶形运算带来纯工程暴力提速。

在MacBook上实测，对全系Apple Silicon友好：

M5 Max 128GB：35B MoE模型轻松跑262K上下文，KV Cache从2782 MiB压到1422 MiB（turbo4）。
M1 Max 64GB（38K token prompt）：实测预填充/解码速度稳定，4.6x压缩后仍保持90%+ q8_0性能。
M2 Pro等低配机型同样有完整AMD RDNA 4 / CUDA移植指南，真正实现“笔记本即超级推理节点”。

其Github仓库的README部分总共有约20个表格，具体内容可查看链接：

https://github.com/TheTom/turboquant_plus/blob/main/README.md

02 一人单挑一个大厂：这是真正的胜利

该仓库以及帖子发布后，截至目前已经产生了百万次浏览量，以及超七千次点赞和转发，同时大量网友和开发者的讨论。

Tom Turney本人最新发帖，宣布社区实现已在Apple Silicon/NVIDIA/AMD全平台跑通，附build指令和benchmark链接，强调“30+测试者已验证”。

有网友艾特他感谢道其实现能够在本地运行模型并扩大上下文窗口。

有开发者强调了光是移植到C语言并优化内核就已经提高了非常高的速度，而这是很多人忽略的地方。

个人开发者@ModernGrindTech借此高度评价道，“solo dev时代一人胜过15人团队协调”，现在这种效率过于惊人。

独立开发者Nkemka Akah评论道“Sparse V”优化是天才之举，直接在上下文中跳过90%的值解压缩。

AI创业者、Columbia PhD、Generative Software Engineering作者David Hendrickson引用了该仓库，并将TurboQuant称之为“Real Win（真正的胜利）。

不过也有人表示了担忧，因为此事，一个人仅凭Claude和一篇论文就能快速复现成果，彻底改变了领域的格局，完全无法猜到未来大厂会开源还是会更严格地封闭。

03 重塑AI生态版图：solo dev让研究真正属于每个人

AI时代，大厂的论文发布已经不再那么激动人心，而像Tom Turney这样的个人开发者将大厂的顶级论文短短一周内就复现并落地、甚至适配了多个平台，让个人用户也能切实用到才是最震撼的。

这不是简单的“复现”，而是一场彻头彻尾的超越。从Python原型到llama.cpp原生支持，从Metal GPU内核到Sparse V、Asymmetric K/V、Temporal Decay等独创优化，Tom用Claude作为超级搭档，把数学公式直接翻译成能跑在MacBook、RTX显卡甚至低配消费级硬件上的极致性能。

Google论文发布后迟迟不放代码，行业还在争论可行性，社区却已经用从4.6x KV Cache压缩、近零PPL损失到35B MoE模型轻松跑262K上下文、2747 tok/s预填充等实测数据给出了最响亮的回答。

更重要的是，这件事正在重塑整个AI生态的权力版图。大厂的研究成果不再是高墙内的专利，而是被AI工具和开源精神支撑起的生产力杠杆。solo dev不再是“追随者”，而是能用周末时间就把顶级研究变成人人可用的工具的“定义者”。

内存厂商股价因为一篇论文而波动，个人开发者却用实际跑通的本地大模型，证明了AI的未来门槛正在史无前例地降低，一台笔记本、一篇arXiv、一位AI助手，就足以撬动曾经需要整个团队数月才能完成的事。