智猩猩

12小时长视频生成破天花板！字节Seed提出自回归生成训练新范式LoL，获CVPR 2026收录

分类： AI论文解读

2026-03-28 10:28:00

智猩猩AI整理

编辑：六六

长视频生成的研究风向，正逐渐从双向模型向自回归模型转变。然而，这一路径虽带来了更长的时序建模能力，却也埋下了误差累积与长期连贯性衰减的隐患。为此，研究者引入注意力汇聚帧（attention sink frames）试图稳定生成过程，却不料催生出一种新的失效模式——汇聚坍缩（ sink-collapse）：画面不断回滚至初始帧，场景骤变、运动循环，仿佛陷入时间循环。

该问题源于旋转位置编码的周期结构与多头注意力机制间的内在冲突。为此，字节Seed研究团队联合提出一种轻量级免训练方法LoL（Longer than Longer），通过多头旋转位置编码抖动打破头间注意力同质化，有效抑制坍缩。

实验表明，该方法在保持生成质量的同时缓解了汇聚坍缩。此工作首次在仅依赖 1.3B 参数模型及 KV 缓存的条件下，实现了质量衰减极小的实时无限流式生成。作为验证，研究生成了长达12小时的连续视频，为目前流式视频生成领域公开结果中最长之一。

针对提示词“电影级第三人称镜头，翼装飞行者疾速穿行于狭窄的山谷之间。飞行者俯冲而下，在嶙峋的崖壁与雪峰之间流畅穿梭”生成的流式超长视频（时长12小时）。

论文标题：LoL: Longer than Longer, Scaling Video Generation to Hour
论文链接：https://arxiv.org/pdf/2601.16914

01 方法

1. 汇聚帧与汇聚坍缩

汇聚坍缩源于 RoPE 位置编码的周期性。RoPE 在短上下文中能保持相对位置关系，但周期性的三角函数在长程生成中会导致相位重新对齐，使相隔较远的帧获得相似的嵌入表示。注意力机制因此过度聚焦于汇聚帧，最终使模型陷入重复生成。

2. 缓解汇聚坍缩

图 1 头间注意力同质化可视化结果。图中前三个潜在帧作为注意力汇聚帧，后三个为正在生成的帧。结果展示的是同一 DiT 层和扩散步在不同帧上的表现。

鉴于汇聚坍缩发生在所有注意力头同时表现出与汇聚帧高度相似性之时（如图 1 所示），将不同注意力头的基频偏移一定幅度，称之为多头抖动，具体算法如下。

由于 RoPE 嵌入固有的周期性，引入的相位偏移能够打破头间的全局对齐，降低所有头同时发生相位重叠的可能性，从而有效缓解汇聚坍缩现象。

3. 无限流式生成

除汇聚坍缩外，超长视频生成还受到 RoPE 长度限制及 VAE 解码内存消耗的制约。实现无限生成主要得益于当前架构的两项设计：

因果 VAE：LongLive 与 Self-Forcing++ 均基于 Wan-2.1 的三维因果 VAE，其时间因果特性支持滑动窗口解码，大幅降低显存与计算开销。
局部注意力：两种模型均采用局部注意力机制，仅关注最近的 N 个潜在帧，以控制计算复杂度。两个 RoPE 嵌入的点积主要取决于它们的相对位置差。

基于上述设计，在汇聚坍缩问题得到解决后，模型可支持无限长度视频生成。流式生成时，初始噪声与 RoPE 均采用动态采样，相较于预生成方法，仅增加极小的额外开销。

02 评估

如表 1 所示，位置外推（PE）在两种模型上均导致严重汇聚坍缩；位置插值（PI）虽能缓解坍缩，却使视频运动近乎停滞；NTK 保持了较高动态性，但缓解坍缩能力有限；YARN 强力抑制坍缩，但大幅削弱动态性；RIFLEx 在双向模型中表现最优，且在自回归设置下能较好保持动态性，但因将重复归因于单一维度，未能有效解决汇聚坍缩，其坍缩分数与 PE 相当。

表 1 将所提方法应用于 LongLive 与 Self-Forcing++ 模型，在使用注意力汇聚帧生成 100 秒视频的场景下进行了实验。红色表示存在严重重复现象，绿色表示运动动态性显著降低。

所提方法 LoL 在汇聚坍缩的最大值与平均值上均实现显著缓解，达到与位置插值相近的水平，同时保持了与位置外推相当的运动动态性。因此，LoL 能够实现无限时长的流式视频生成且不发生坍缩，如图 2 所示。

图 2 不同位置外推扩展方法应用后的结果可视化。

表 2 给出了与其他自回归基线方法的对比结果，表明所提方法在有效解决汇聚坍缩问题的同时，不会对生成质量造成损害。

表 2 与其它自回归视频生成模型在 75 秒与 100 秒视频上的性能对比。