Soul App投稿
智猩猩AI整理
随着数字人直播、视频播客、实时互动等场景快速普及,行业正在从“能生成”走向“能长期稳定生成”。但在真实线上应用里,数字人生成面临一个长期难题:视频生成一旦拉长到分钟甚至小时级,画面稳定性与一致性会明显下降——常见问题包括身份漂移、细节丢失、画面闪烁,以及实时推理成本随时长上升等。
如何让数字人视频在流式实时推理下做到小时级甚至无限长度、同时保持身份一致/细节稳定/口型精准?Soul AI Lab(Soul App AI团队) 给出了新的方案 SoulX-LiveAct :通过 Neighbor Forcing(同扩散步对齐的自回归条件传播)与 ConvKV Memory(KV 记忆压缩),让 AR diffusion 从“能流式”走向“可真正长时稳定地实时流式”。

论文标题:SoulX-LiveAct: Towards Hour-Scale Real-Time Human Animation with Neighbor Forcing and ConvKV Memory
论文链接: https://arxiv.org/abs/2603.11746
Project Page: https://soul-ailab.github.io/soulx-liveact/
Source Code: https://github.com/Soul-AILab/SoulX-LiveAct
Hugging Face: https://huggingface.co/Soul-AILab/LiveAct
01 模型架构
SoulX-LiveAct 面向小时级实时数字人动画的流式生成,整体采用AR Diffusion(自回归扩散)范式,并围绕“长时一致 + 恒定显存”构建两条核心机制:Neighbor Forcing 与ConvKV Memory。
AR Diffusion 主干:按chunk/帧块自回归生成,每个 chunk 内采用扩散建模细节,chunk 间通过条件上下文承接运动与身份信息,实现流式推理闭环。
Neighbor Forcing(邻近强制):在自回归链上,不传播“不同扩散步”的状态,而是传播 同扩散步ttt 下的相邻帧latent 作为条件,使上下文与当前预测处于同一噪声语义空间(step-aligned),显著降低训练/推理中的分布不一致。
ConvKV Memory(卷积式 KV 记忆):将历史attention KV 记忆从“线性增长的 cache”改为“短期精确+ 长期压缩”的组合:
近期KV 保留高精度窗口(保证局部一致与细节稳定)
远期KV 通过轻量 1D conv 按固定压缩比滚动压缩(例如报告示例 λ=5),把历史信息压缩进固定长度表示,从而实现常量显存推理。
RoPE Reset(位置对齐):配合ConvKV Memory 的“压缩+滑动窗口”,通过 RoPE reset 做位置编码对齐,避免长序列位置漂移,强化长时稳定。

LiveAct 推理时序 + Memory 结构示意图
02 模型训练
SoulX-LiveAct 的训练目标不是只追求短视频质量,而是显式对齐流式推理的长时误差传播,使模型在“越长越不稳”的场景下仍能保持身份与细节稳定。
Neighbor Forcing 对齐训练分布:训练时强制模型在同扩散步语境下接收来自“相邻帧”的条件 latent,减少 AR 链中跨步噪声空间不一致带来的优化震荡,使模型更好学到稳定的时序承接规则。
长时一致性导向的自回归训练构造:训练样本按chunk 方式组织,显式覆盖“连续 chunk 合成 → 误差累积 → 再纠正”的过程,让模型在训练期就暴露并学习处理长时漂移问题,而不是仅在短 clip 上拟合。
Memory-Aware 训练(与推理一致):训练阶段引入与推理一致的ConvKV Memory 使用方式(短期窗口 + 长期压缩),让模型学会在“被压缩的历史记忆”条件下保持身份与细节一致性,避免训练/推理不一致导致的掉点。

SoulX-LiveAct 整体训练流程
03 实时推理加速
LiveAct 的加速思路强调“延迟稳定”而不是“越跑越慢”,核心是把长时上下文从可变 cache 变成可控 memory,从而让实时流式推理不随时长恶化。
恒定显存(Constant-Memory Inference):ConvKV Memory 把历史 KV 从线性增长变为固定预算,推理显存随视频时长保持恒定,这是小时级在线生成的必要条件。
稳定延迟(Stable Latency):短期窗口 KV 保证局部质量,长期压缩 KV 保证全局一致;两者组合使每个 chunk 的计算与通信成本保持稳定,不会因为视频越长而拖慢。
端到端实时能力:在512×512 下,系统可在 2×H100/H200 条件下实现20 FPS 的流式推理,并给出约0.94s 的端到端延迟与27.2 TFLOPs/frame 的成本口径。
04 评估
通过在HDTF(面部口型与真实感)与EMTD(包含全身动作)两类基准上的定量对比,SoulX-LiveAct 展示了其在口型同步、动画质量与实时效率上的综合领先。
在HDTF 上,SoulX-LiveAct 取得 9.40 的 Sync-C 与6.76 的 Sync-D,同时在分布相似性指标上达到10.05 FID / 69.43 FVD,并在VBench 上获得 97.6 的 Temporal Quality 与63.0 的 Image Quality,VBench-2.0 的 Human Fidelity 达到 99.9,体现出更稳定的时序质量与更强的人体与身份一致性。
在EMTD 上,SoulX-LiveAct 依然保持最优同步表现(8.61 Sync-C / 7.29 Sync-D),并在VBench 上达到 97.3 Temporal Quality / 65.7 Image Quality,Human Fidelity 达到 98.9,证明其对全身动作与复杂表情/动作场景的鲁棒性。
更重要的是,作为面向“小时级实时生成”的系统方案,SoulX-LiveAct 在推理侧将成本压到 27.2 TFLOPs / frame,并仅用2 张 H100/H200 即可实现20 FPS 的实时流式推理与0.94s 端到端延迟,显著优于需要8 卡且延迟更高的 InfiniteTalk(25 FPS / 3.20s / 50.2 TFLOPs)以及 5 卡 Live-Avatar(20 FPS / 2.89s / 39.1 TFLOPs),把“长时稳定 + 实时可用”真正拉进可部署区间。



05 实际应用场景:SoulX-LiveAct 带来的变革
(1)7×24 小时“长期在线”数字人直播间
场景:直播陪伴、互动主持、虚拟播报。
应用:传统流式方案一旦拉长到十几分钟以上,常见“脸漂/细节掉件/口型逐步漂移”。SoulX-LiveAct 通过 Neighbor Forcing + ConvKV Memory 实现“恒定显存”的长时流式生成,在小时级输出中依然维持身份与细节稳定,同时以 20 FPS、0.94s 的低延迟满足实时互动需求(弹幕/对话/即兴反应)。
(2)沉浸式视频对话:AI 虚拟导师 / 客服 / 智慧柜员
场景:在线教育、金融客服、政务大厅、企业数字前台。
应用:视频对话的“信任感”来自稳定的表情、口型与身份一致性。SoulX-LiveAct 在 HDTF/EMTD 上取得领先的 Sync-C/Sync-D,并在VBench-2.0 上维持接近满分的人体保真度表现,让“面对面”的互动更自然、更可信。
(3)长内容生产:播客/课程/解说的“小时级视频一键生成”
场景:长播客、课程录制、知识解说、企业培训。
应用:这类内容最怕“越到后面越崩”。SoulX-LiveAct 的长视频一致性分析显示,相比基线方法容易出现身份漂移与配饰消失等问题,LiveAct 能更稳定地保持人物身份与细节(衣物纹理/配饰等)贯穿全程,适合批量生成“从开头到结尾一致”的长内容。
(4)游戏与虚拟世界中的“实时驱动”NPC
场景:开放世界NPC、虚拟社交、互动剧情。
应用:NPC 不仅要会说,更要“说得像、动得像、一直像”。SoulX-LiveAct 在全身数据集 EMTD 上的同步与质量指标领先,并支持实时流式推理,适合在游戏/虚拟空间里实现长时间在线的、具备情绪动作表达的数字角色交互。