智猩猩

双H100实现20FPS流式推理！Soul App开源数字人视频生成模型，攻克小时级实时生成难题

分类： AI论文解读

2026-03-19 19:09:56

Soul App投稿

智猩猩AI整理

随着数字人直播、视频播客、实时互动等场景快速普及，行业正在从“能生成”走向“能长期稳定生成”。但在真实线上应用里，数字人生成面临一个长期难题：视频生成一旦拉长到分钟甚至小时级，画面稳定性与一致性会明显下降——常见问题包括身份漂移、细节丢失、画面闪烁，以及实时推理成本随时长上升等。

如何让数字人视频在流式实时推理下做到小时级甚至无限长度、同时保持身份一致/细节稳定/口型精准？Soul AI Lab（Soul App AI团队）给出了新的方案 SoulX-LiveAct ：通过 Neighbor Forcing（同扩散步对齐的自回归条件传播）与 ConvKV Memory（KV 记忆压缩），让 AR diffusion 从“能流式”走向“可真正长时稳定地实时流式”。

论文标题：SoulX-LiveAct: Towards Hour-Scale Real-Time Human Animation with Neighbor Forcing and ConvKV Memory
论文链接: https://arxiv.org/abs/2603.11746
Project Page: https://soul-ailab.github.io/soulx-liveact/
Source Code: https://github.com/Soul-AILab/SoulX-LiveAct
Hugging Face: https://huggingface.co/Soul-AILab/LiveAct

01 模型架构

SoulX-LiveAct 面向小时级实时数字人动画的流式生成，整体采用AR Diffusion（自回归扩散）范式，并围绕“长时一致 + 恒定显存”构建两条核心机制：Neighbor Forcing 与ConvKV Memory。

AR Diffusion 主干：按chunk/帧块自回归生成，每个 chunk 内采用扩散建模细节，chunk 间通过条件上下文承接运动与身份信息，实现流式推理闭环。

Neighbor Forcing（邻近强制）：在自回归链上，不传播“不同扩散步”的状态，而是传播 同扩散步ttt 下的相邻帧latent 作为条件，使上下文与当前预测处于同一噪声语义空间（step-aligned），显著降低训练/推理中的分布不一致。

ConvKV Memory（卷积式 KV 记忆）：将历史attention KV 记忆从“线性增长的 cache”改为“短期精确+ 长期压缩”的组合：

近期KV 保留高精度窗口（保证局部一致与细节稳定）
远期KV 通过轻量 1D conv 按固定压缩比滚动压缩（例如报告示例 λ=5），把历史信息压缩进固定长度表示，从而实现常量显存推理。

RoPE Reset（位置对齐）：配合ConvKV Memory 的“压缩+滑动窗口”，通过 RoPE reset 做位置编码对齐，避免长序列位置漂移，强化长时稳定。

LiveAct 推理时序 + Memory 结构示意图

02 模型训练

SoulX-LiveAct 的训练目标不是只追求短视频质量，而是显式对齐流式推理的长时误差传播，使模型在“越长越不稳”的场景下仍能保持身份与细节稳定。

Neighbor Forcing 对齐训练分布：训练时强制模型在同扩散步语境下接收来自“相邻帧”的条件 latent，减少 AR 链中跨步噪声空间不一致带来的优化震荡，使模型更好学到稳定的时序承接规则。

长时一致性导向的自回归训练构造：训练样本按chunk 方式组织，显式覆盖“连续 chunk 合成 → 误差累积 → 再纠正”的过程，让模型在训练期就暴露并学习处理长时漂移问题，而不是仅在短 clip 上拟合。

Memory-Aware 训练（与推理一致）：训练阶段引入与推理一致的ConvKV Memory 使用方式（短期窗口 + 长期压缩），让模型学会在“被压缩的历史记忆”条件下保持身份与细节一致性，避免训练/推理不一致导致的掉点。

SoulX-LiveAct 整体训练流程

03 实时推理加速

LiveAct 的加速思路强调“延迟稳定”而不是“越跑越慢”，核心是把长时上下文从可变 cache 变成可控 memory，从而让实时流式推理不随时长恶化。

恒定显存（Constant-Memory Inference）：ConvKV Memory 把历史 KV 从线性增长变为固定预算，推理显存随视频时长保持恒定，这是小时级在线生成的必要条件。

稳定延迟（Stable Latency）：短期窗口 KV 保证局部质量，长期压缩 KV 保证全局一致；两者组合使每个 chunk 的计算与通信成本保持稳定，不会因为视频越长而拖慢。

端到端实时能力：在512×512 下，系统可在 2×H100/H200 条件下实现20 FPS 的流式推理，并给出约0.94s 的端到端延迟与27.2 TFLOPs/frame 的成本口径。

04 评估

通过在HDTF（面部口型与真实感）与EMTD（包含全身动作）两类基准上的定量对比，SoulX-LiveAct 展示了其在口型同步、动画质量与实时效率上的综合领先。

在HDTF 上，SoulX-LiveAct 取得 9.40 的 Sync-C 与6.76 的 Sync-D，同时在分布相似性指标上达到10.05 FID / 69.43 FVD，并在VBench 上获得 97.6 的 Temporal Quality 与63.0 的 Image Quality，VBench-2.0 的 Human Fidelity 达到 99.9，体现出更稳定的时序质量与更强的人体与身份一致性。

在EMTD 上，SoulX-LiveAct 依然保持最优同步表现（8.61 Sync-C / 7.29 Sync-D），并在VBench 上达到 97.3 Temporal Quality / 65.7 Image Quality，Human Fidelity 达到 98.9，证明其对全身动作与复杂表情/动作场景的鲁棒性。

更重要的是，作为面向“小时级实时生成”的系统方案，SoulX-LiveAct 在推理侧将成本压到 27.2 TFLOPs / frame，并仅用2 张 H100/H200 即可实现20 FPS 的实时流式推理与0.94s 端到端延迟，显著优于需要8 卡且延迟更高的 InfiniteTalk（25 FPS / 3.20s / 50.2 TFLOPs）以及 5 卡 Live-Avatar（20 FPS / 2.89s / 39.1 TFLOPs），把“长时稳定 + 实时可用”真正拉进可部署区间。

05 实际应用场景：SoulX-LiveAct 带来的变革

（1）7×24 小时“长期在线”数字人直播间

场景：直播陪伴、互动主持、虚拟播报。

应用：传统流式方案一旦拉长到十几分钟以上，常见“脸漂/细节掉件/口型逐步漂移”。SoulX-LiveAct 通过 Neighbor Forcing + ConvKV Memory 实现“恒定显存”的长时流式生成，在小时级输出中依然维持身份与细节稳定，同时以 20 FPS、0.94s 的低延迟满足实时互动需求（弹幕/对话/即兴反应）。

（2）沉浸式视频对话：AI 虚拟导师 / 客服 / 智慧柜员

场景：在线教育、金融客服、政务大厅、企业数字前台。

应用：视频对话的“信任感”来自稳定的表情、口型与身份一致性。SoulX-LiveAct 在 HDTF/EMTD 上取得领先的 Sync-C/Sync-D，并在VBench-2.0 上维持接近满分的人体保真度表现，让“面对面”的互动更自然、更可信。

（3）长内容生产：播客/课程/解说的“小时级视频一键生成”

场景：长播客、课程录制、知识解说、企业培训。

应用：这类内容最怕“越到后面越崩”。SoulX-LiveAct 的长视频一致性分析显示，相比基线方法容易出现身份漂移与配饰消失等问题，LiveAct 能更稳定地保持人物身份与细节（衣物纹理/配饰等）贯穿全程，适合批量生成“从开头到结尾一致”的长内容。

（4）游戏与虚拟世界中的“实时驱动”NPC

场景：开放世界NPC、虚拟社交、互动剧情。

应用：NPC 不仅要会说，更要“说得像、动得像、一直像”。SoulX-LiveAct 在全身数据集 EMTD 上的同步与质量指标领先，并支持实时流式推理，适合在游戏/虚拟空间里实现长时间在线的、具备情绪动作表达的数字角色交互。