- 开课提醒
- 1、主流视觉扩散模型与Mamba2回顾
- 2、注意力规范化及非因果推理关键特征解析
- 3、广义线性注意力机制的设计与实现
- 4、实际应用与生成效果分析
- 5、在Diffusion Transformer模型上的扩展延伸
近年来,扩散模型在人工智能生成内容(AIGC)方面取得了重大进展。一方面,与GAN等经典模型不同,扩散模型迭代地细化噪声向量,从而产生具有精细细节的高质量结果。另一方面,经过大规模数据的训练,这些模型在输入条件和输出结果之间表现出令人满意的一致性。这些能力推动了文本到图像生成的快速进展,然而现代扩散模型的出色生成性能严重依赖自注意力机制处理复杂空间关系。这种现有范式由于复杂度随图像分辨率呈二次增长,在生成高分辨率视觉内容时面临显著挑战。
为解决上述问题,新加坡国立大学在读博士刘松桦提出了LinFusion架构,以一种新颖的广义线性注意力机制作为传统自注意力替代方案。 LinFusion 仅经过适度训练即可实现与原始Stable Diffusion(SD) 相当甚至更好的性能,同时显著降低了时间和内存复杂度,可以在1块GPU上生成16K超高分辨率图像。代码现已开源。
作者通过研究近期提出的线性复杂性模型,如Mamba、Mamba2和门控线性注意力,确定了两个关键特性:注意力规范化和非因果推理,这些特性显著提升了高分辨率视觉生成的性能。在此基础上,引入了一种广义线性注意力范式,这是常见线性标记混合器的低秩近似。同时为降低训练成本并充分利用预训练模型,作者从预训练的SD中提取知识并初始化模型。
实验结果表明,经过适度训练的LinFusion,大幅减少了推理时间和内存消耗。尤其是在生成16K分辨率图像时,模型能够高效运行,仅需1块GPU、1分钟即可生成且生成质量优异。同时作者在SD-v1.5、SD-v2.1和SD-XL等版本上的测试显示,LinFusion能够生成16K分辨率等高质量图像,并表现出优异的零样本跨分辨率生成能力。此外,该模型无需额外调整即可兼容SD预训练插件(如ControlNet和IP Adapter)。
12月3日10点,智猩猩邀请到论文一作、新加坡国立大学在读博士刘松桦参与「智猩猩AI新青年讲座」256讲,主讲《16K超高清图像生成——预训练扩散模型高效线性化》。