智猩猩

VLM也能抛弃逐Token生成了！MIT韩松团队联合提出扩散式VLM，端到端最高提速6.18倍

分类： AI论文解读

2026-04-24 11:01:00

智猩猩AI整理

编辑：宁宁

视觉语言模型这两年进步很快，但推理效率始终是落地中的核心瓶颈。主流 VLM 仍采用自回归解码，一次只生成一个 token，在长回答、多步推理、实时交互等场景下延迟高、吞吐低。尤其在机器人、自动驾驶、具身智能等 Physical AI 场景中，单请求在线推理往往受限于内存带宽，很难真正发挥 GPU 的并行能力。

针对这一问题，MIT韩松团队联合港大、英伟达等提出了 Fast-dVLM，可由预训练自回归视觉语言模型直接转换得到的 block-diffusion VLM。该方法通过按块并行生成并结合 self-speculative decoding，在尽量保持原有生成质量的同时显著提升推理效率。研究团队不仅提出了 Fast-dVLM，还系统比较了两条 AR→Diffusion 路径。结果表明，在相近训练预算下，直接从预训练 AR VLM 出发的 direct path 明显比“先做文本 diffusion、再进行多模态微调”的 two-stage 路线更高效。实验结果显示，在短答案任务上，Fast-dVLM 在 speculative decoding 设置下可将平均成绩提升至与 AR 基线相同的 74.0，同时把 Tokens/NFE 提升到 2.63×；而在 MMMU-Pro-V 上，进一步结合 SGLang serving 与 SmoothQuant-W8A8（FP8）量化后，端到端吞吐最高可达到 AR baseline 的 6.18×。但需要注意的是，这一最高加速对应的精度为 23.8，仍略低于 AR 基线的 26.3。

论文标题：Fast-dVLM: Efficient Block-Diffusion VLM via Direct Conversion from Autoregressive VLM
论文链接：https://arxiv.org/pdf/2604.06832v1
GitHub 仓库地址：https://github.com/NVlabs/Fast-dLLM

01 方法

Fast-dVLM 的核心思想，是把 VLM 的逐 token 自回归生成改造成按 block 并行去噪生成。但研究团队并没有简单照搬文本扩散模型，而是针对多模态场景重新设计了训练与推理流程。

研究团队首先比较了两种转换策略，如图2所示。

（i）Two-stage 路线先把文本 LLM 变成 diffusion LLM，再接入视觉模块做多模态微调；

（ii）Direct path 则直接从已经完成多模态预训练的 AR VLM 出发，在单阶段多模态训练中完成扩散化。

研究发现direct path 更能保留原始 VLM 已经学到的视觉—语言对齐能力，因此在相同预算下更有效。

在训练架构上，Fast-dVLM 将输入分成 clean stream 和 noisy stream：只对响应文本 token 加噪，视觉 token 不扰动。围绕这一结构研究团队设计了三类注意力关系：

（i）noisy block 内部双向注意力，用于并行去噪；

（ii）noisy token 可看到前面的 clean 上下文，包括视觉 token；

（iii）clean stream 保留因果注意力，以继承 AR 模型原有的顺序建模能力。

为让这套结构真正适配 VLM，研究团队又提出了四个关键技巧：causal context attention、block-size annealing、auto-truncation masking、vision-efficient concatenation。其中vision-efficient concatenation 只在 clean stream 中保留视觉 token，避免冗余复制，在不损失效果的前提下将峰值显存降低 15.0%，训练时间缩短 14.2%。训练目标则采用 diffusion loss 与 causal LM loss 联合优化，使模型既具备并行去噪能力，又保留 AR 生成能力。

推理阶段，Fast-dVLM 采用 block-by-block 解码，并引入 self-speculative decoding：由 diffusion 模式先草拟一段 token，再由 causal 模式验证并接受最长匹配前缀。研究团队将系统接入 SGLang，并结合 SmoothQuant 的 FP8/W8A8 量化，实现更接近实际部署的系统级加速。

02 实验设置及结果分析

实验中，研究团队从 Qwen2.5-VL-3B 初始化模型，采用 direct path 完成转换，目标 block size 设为 32，并在 11 个多模态任务上进行评测。吞吐测试在单张 H100、batch size=1 的条件下完成，这一设定与真实在线服务场景较为一致。

结果显示，在短答案任务上，Fast-dVLM 表现非常突出，如表2所示。使用 MDM decoding 时，平均分为 73.3，而 AR baseline 为 74.0，仅差 0.7 分，但 Tokens/NFE 达到 1.95×；换成 speculative decoding 后，平均分提升到 74.0，与 AR 基线完全持平，同时 Tokens/NFE 达到 2.63×。此外，Fast-dVLM 在 11 个短答案 benchmark 中有 8 个取得 diffusion VLM 最优结果，说明它已经相当接近“无损加速”。

如表2和图1(a)所示，在长链推理任务 MMMU-Pro-V 上，AR baseline 得分 26.3，Fast-dVLM 的 MDM 解码得分 21.4，仍有明显差距；但 speculative decoding 可将成绩提升到 24.6，仅落后 1.7 分。研究团队认为长链 reasoning 更依赖严格的序列一致性，因此块级并行生成仍有天然挑战，但结果已经证明该路线具备继续逼近 AR 的潜力。

全文最关键的一组实验，是 direct path 与 two-stage path 的正面对比，如图4所示。结果显示，direct path 平均分为 73.3，而 two-stage 仅为 60.2，并且前者在 10 个 benchmark 上全部领先，在 DocVQA、ChartQA、AI2D 等知识和推理更密集的任务上优势尤其明显。这说明，对于已经完成预训练的 AR VLM，直接从完整 VLM 出发进行扩散化，能够更充分地继承其已有的多模态对齐能力，因此在相同训练预算下比 two-stage 路线更高效。研究团队也据此将 direct path 作为默认推荐方案。

消融实验也验证了各组件的重要性，如表4，图6所示：去掉 causal context attention 后，平均精度下降 22.5%；去掉 block-size annealing 后，平均分下降 4.4%；去掉 auto-truncation 后，平均分下降 3.7%。这说明 Fast-dVLM 的提升并不是单一技巧带来的，而是整套训练与推理设计共同作用的结果。

03 总结

Fast-dVLM 的价值，不只是“把 VLM 做快了”，而是更进一步回答了一个方法论问题：如果已经拥有高质量 AR VLM，怎样才能以更直接、训练效率更高的方式，把它转换成高吞吐的扩散式 VLM？论文给出的答案是：直接从预训练好的 AR VLM 出发，尽可能保留其多模态对齐能力与因果建模能力，再通过 block diffusion 和 self-speculative decoding 换取并行生成效率。

从结果看，这条路线已经相当有说服力：在短答案任务上，Fast-dVLM 几乎实现了与 AR 基线持平的效果，同时显著提升了解码效率；在长链推理任务上，它也通过 speculative decoding 明显缩小了与 AR 的差距；进一步结合 SGLang 与 FP8 量化后，系统层面则实现了超过 6× 的端到端提速。