绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
0
0
推理提速1.3倍画质不崩!西湖大学提出一步免训练扩散模型剪枝框架,ICLR 2026 已收录
分类: AI论文解读
2026-02-13 17:06:00

智猩猩AI整理 

编辑:六六 

大规模文本到图像扩散模型虽功能强大,却受制于高昂的计算成本。鉴于扩散模型的迭代去噪特性,现有的一步式网络剪枝方法难以直接应用于此类模型。

为填补这一空白,西湖大学提出OBS-Diff——一种创新的一步式、无需训练的剪枝框架,能够对大规模文本到图像扩散模型进行准确且无需训练的压缩。

大量实验表明,OBS-Diff 为无需训练的扩散模型剪枝确立了新的性能标杆。该方法在保持高视觉质量的同时实现了推理加速,并且在多种稀疏度水平与稀疏模式下均优于其他逐层剪枝方法。

  • 论文标题:OBS-Diff: Accurate Pruning For Diffusion Models in One-Shot

  • 论文链接:https://arxiv.org/abs/2510.06751

  • 代码链接:https://github.com/Alrightlone/OBS-Diff

01 方法

图 1  所提出的OBS-Diff框架在MMDiT架构上的应用示意图。

图 1 所示OBS-Diff 框架将模型划分为序列化的 “模块包(Module Packages)”,以分摊校准成本。在每个模块组内,采用一种新颖的时序感知 Hessian 矩阵构建方式,优先处理早期去噪步骤,从而实现对当前模块包内所有目标层的同步剪枝。

1. 时序感知的 Hessian 矩阵构造

扩散模型的去噪过程由离散时间步参数化,具有迭代特性。剪枝产生的误差在该过程中影响不均匀:早期步骤引入的误差会向后续步骤传播并累积,导致最终输出的偏差显著增大。因此,鲁棒的剪枝策略必须优先保证这些关键早期阶段的网络功能不受损。

研究重新构建了逐层优化问题,以最小化加权重构误差为目标,该误差赋予早期、高影响度步骤更高的权重:

  是一个依赖于时间步的权重,此策略确保权重在推理开始时最高,并平滑衰减。

通过引入此加权方案,对 Optimal Brain Surgeon(OBS)框架进行了适配。用于捕捉此加权损失二阶信息的Hessian矩阵,现计算为所有推理步骤的加权和:

该矩阵被称为时序感知 Hessian 矩阵。它概括了参数在生成过程中不断变化的重要性。因此,从其逆矩阵导出的显著性分数,对在去噪过程早期形成阶段至关重要的权重更为敏感,从而能获得更忠实保持性能的剪枝后模型。

2. 模块包:组级顺序剪枝策略

该方法基于两个概念构建。基本单元是指在单次前向传播中具有相互独立输入的一组层(例如,查询、键和值的投影层),允许并行处理。模块包由一个或多个基本单元组成,这些单元被集体剪枝和校准。

本框架顺序处理这些模块包。对于每个包,首先执行组级数据收集阶段:在校准数据集上运行一次完整的去噪轨迹,同时使用前向钩子收集该包内所有模块的输入统计量。随后,使用各自对应的时序感知 Hessian 矩阵同时对所有模块进行剪枝。

网络状态在包与包之间顺序更新,但在单个包的数据收集过程中保持不变。这在更粗的组级粒度上保留了顺序校准的原则,从而使该过程在计算上可行。此策略极大地减少了校准运行的次数,其主要权衡在于需要同时存储多个 Hessian 矩阵导致内存占用增加。

3. 拓展至半结构化与结构化剪枝

OBS-Diff 框架的一个关键优势在于其适应性。在聚焦于非结构化剪枝的同时,该框架可以轻松扩展到半结构化与结构化稀疏模式。

半结构化剪枝。 对于像2:4这样的半结构化稀疏模式,扩展是直接的。在每个包含四个权重的块中,直接剪除其中具有最低单权重 OBS-Diff 显著性得分的两个权重,从而高效地创建对硬件友好的模型。

结构化剪枝。对于前馈网络(FFN)层的结构化剪枝,通过聚合其相关权重的显著性来评估一个神经元的重要性。整个神经元的显著性  及其对应的权重更新量如公式所示,其中得分最低的神经元将被移除。

同理,针对多头注意力模块执行完整注意力头的剪枝。该方法受 SlimGPT启发,可量化每个注意力头的显著性。

计算始于输出投影层的完整Hessian矩阵  ,通过聚合其各个权重的重要性来得到第  个头的总显著性  。显著性计算公式如下:

但 MMDiT 的联合注意力机制存在独特挑战。共享注意力头处理拼接后的多模态输入,却接入独立的模态专属输出支路。该结构使同一组注意力头对应两种不同的重要性排序(各模态对应一种),而 OBS-Diff 在分离后处理两组输出投影矩阵。为解决该问题,采用互逆排序融合(Reciprocal Rank Fusion, RRF)将两种排序融合为单一决策序列:

随后,使用完整的Hessian矩阵  ,更新整个输出投影层的权重。

02 评估

1. 非结构化剪枝结果

表 1  文本到图像扩散模型上非结构化剪枝方法的定量比较。各项指标的最佳结果以加粗形式标出。

表 1 中的结果展示了 OBS-Diff 在 CLIP 分数和 ImageReward 指标上的优越性。

关于FID指标的有趣现象——剪枝后的模型偶尔能够超越原始密集模型,可以认为 FID 在此可能不是评估不同剪枝方法的非常可靠的指标。

关于 CLIP 分数,OBS-Diff 在绝大多数测试案例中都是性能最佳的方法,与密集模型相比仅显示出轻微的下降。

最值得注意的是,OBS-Diff 在所有基准测试的 ImageReward 指标上持续领先,表明其输出与人类审美偏好具有更优的一致性。

该方法在高稀疏度水平下的优越性最为显著。如图 2 所示,基线方法在高稀疏度下生成的图像经常完全损坏并存在严重伪影,而 OBS-Diff 则能持续生成高质量且连贯的结果。

图 2  在SD3-Medium模型上对不同非结构化剪枝方法的定性比较。所有生成图像的分辨率均为512 × 512。

2. 半结构化剪枝结果

2:4 半结构化剪枝的结果展示于表 2。OBS-Diff 在CLIP分数与ImageReward上均大幅超过最强基线方法。这凸显了本方法在对硬件友好的稀疏度约束下,仍能有效保持高层次语义一致性与视觉保真度。

表 2  在 Stable Diffusion 3.5-Large 模型上应用半结构化剪枝的性能表现。剪枝操作应用于第3至第25个MMDiT模块。

3. 结构化剪枝结果

结果展示于表 4 与表 3。基线  剪枝方法即使在较低稀疏度下也出现了严重的性能退化,与此形成鲜明对比的是,OBS-Diff 方法表现出显著的鲁棒性,这种鲁棒性一直持续到 30% 的稀疏度。这些发现突显了 OBS-Diff 在进行激进的结构化剪枝时,仍能有效保留关键模型结构的卓越能力。

为了与现有技术进行基准比较,本研究将 OBS-Diff 与当前先进的文本到图像扩散模型结构化剪枝框架 EcoDiff 进行了直接对比。如表 3 和表 4 所示,证实了 OBS-Diff 能够有效地泛化至不同的模型架构,在 MMDiT 与 U-Net 两种骨干网络上均优于基线方法。

表 3  SDXL(U-Net)模型在不同稀疏度水平下的结构化剪枝性能。TFLOP 指标代表整个U-Net单次前向传播的理论计算成本。

表 4   Stable Diffusion 3.5-Large 模型在不同稀疏度水平下的结构化剪枝性能。剪枝过程排除了第一个和最后一个 Transformer 模块。TFLOPs指标代表整个 Transformer 进行单次前向传播的理论计算成本。

4. 实际耗时对比

为量化实际效率增益,测量了 SD3.5-Large 模型中单个 MMDiT 模块执行一次前向传播的实际耗时。测试在单张 NVIDIA 4090 GPU 上进行,批次大小为 4,分辨率为 1024×1024。

表 5 显示,两种剪枝方法均有效降低了推理延迟。2:4半结构化剪枝实现了 1.23 倍的加速,而结构化剪枝方法在 30% 稀疏度下达到了 1.31 倍的加速。这些结果验证了应用 OBS-Diff 剪枝技术所带来的切实可行的实际加速效益。

表 5  不同稀疏方案下单个 MMDiT 模块的实际推理耗时(毫秒)与加速比。