智猩猩AI整理
编辑:六六
近年来,联合音视频生成领域突飞猛进,涌现出 Veo3、Sora2、Wan 2.6 和 Seedance 1.5 Pro 等商业模型,成果斐然。在实际应用中,实现以人为中心的可控生成尤为关键,而如何在单一框架内对多人物身份与音色进行精确解耦控制仍然是一个开放的挑战。
为应对这一挑战,清华联合字节跳动提出了DreamID-Omni——用于可控的以人中心音视频生成的统一框架。通过将基于参考的生成、编辑与动画整合至统一范式,克服了以往任务特定模型的局限性。
DreamID-Omni 在视频、音频及音视频一致性方面均实现了全面的最先进性能,甚至超越了领先的专有商业模型。

论文链接:https://arxiv.org/pdf/2602.12160
论文标题:DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation
项目主页:https://guoxu1233.github.io/DreamID-Omni/
GitHub链接:https://github.com/Guoxu1233/DreamID-Omni
01 方法
将可控人体生成领域统一至单一概率框架,给定文本提示、参考身份集及对应音色,目标是合成同步音视频流。为支持基于参考的编辑与动画任务,引入两个可选结构条件:源视频上下文与驱动音频流。通过选择性给定条件,框架可在三种不同任务间无缝切换:

DreamID-Omni 框架基于双流扩散变换器(Dual-Stream DiT)构建,如图 1 所示。架构包含视频流与音频流两个并行分支,分别负责视觉合成与声学合成。两分支通过双向交叉注意力层交互,以实现视觉与听觉模态间的细粒度时间同步及语义对齐。

图 1 DreamID-Omni框架概述
1. 对称条件扩散变换器
对称条件 DiT 模块为 DreamID-Omni 的核心架构贡献,旨在将基于参考的生成、编辑与动画无缝集成至统一框架中。
该模块采用对称双流条件策略,在潜空间中以结构对等方式组合异构控制信号。设 与 为带噪目标视频与音频潜变量,构建条件序列以整合身份与结构引导:

参考特征 与带噪潜变量拼接,使 DiT 提取身份与音色先验;结构条件 通过逐元素加法注入,施加时空一致性。双重注入实现身份保持与结构引导的解耦。
2. 双重解耦
多人生成面临主体间混淆,表现为身份-音色错配与属性-内容归属错误,根源在于信号与语义两个层面的特征纠缠。为此研究团队提出双重解耦策略:信号层引入 Syn-RoPE 实现刚性绑定,语义层设计结构化字幕进行歧义消除。
Syn-RoPE:针对旋转位置编码(RoPE)在动态合成任务中的局限性,提出身份同步RoPE(Syn-RoPE)机制,通过在注意力空间内为不同语义输入分配互不重叠的时间片段,实现身份间的刚性绑定。
如图 1 所示,该机制首先按序列长度比例缩放目标音频的RoPE频率,以实现视频与音频流的同步;进而将绝对时间位置索引划分为目标区域与各参考身份的专属区域——目标序列占据初始位置范围,每个参考身份的潜特征则映射至预留的独立区间,各区间之间设有足够间隔以避免干扰。该设计具备双重优势:
1)身份间解耦:利用RoPE周期性将各身份投影至独立旋转子空间,抑制跨身份注意力;
2)身份内同步:通过统一位置映射实现视觉与声学特征的隐式跨模态对齐,为生成、编辑与动画任务提供统一且稳健的身份绑定基础。
结构化字幕:为每个参考身份分配唯一锚点token,通过细粒度属性描述初始化该标记,并将目标内容整合为包含视频、音频及联合描述的脚本,其中所有个体引用均使用预定义锚点token。该格式为模型提供显式语义依据,有效解决语义纠缠问题。
02 评估
IDBench-Omni 基准:研究团队提出提出首个面向可控音视频生成的综合基准,含200个实例:100个身份-音色-文本三元组用于生成,50个掩码视频用于编辑,50段驱动音频用于动画,覆盖多人对话等挑战场景。
评估指标:通过 VBench 的美学分数(AES)评估视频质量与连贯性,通过ViCLIP 的文本-视频相似度评估文本跟随能力,并通过 ArcFace 评估身份相似度。
1. R2AV 任务对比
由于尚无开源方法直接支持 R2AV 任务,构建一组强基线方法进行比较。将所提方法与闭源模型 Wan2.6 以及两个级联流程进行对比:后者先通过 Qwen-Image 生成初始帧,再分别采用 LTX-2 和 Ovi 进行动画化。此外,针对视频中心指标,纳入领先的 R2V 模型:Phantom、VACE 和 HunyuanCustom 。如表2所示,所提方法在视频、音频及音视频一致性维度均取得优越或可比结果。
表 1 在所提基准上R2AV任务的量化比较。身份相似度(ID-Sim.)与音色相似度(T-Sim.)中的S/M标注分别表示单人与多人场景下的结果。

图 2 的定性比较中,案例(a)显示,与 Wan2.6 等基线相比,所提方法呈现出最逼真的视觉结果,且相较于 Ovi 和 LTX-2,与参考身份的身份一致性更优。案例(b)中,仅有所提方法成功实现了特定身份与其对应音色的正确绑定,而 Wan2.6 等基线存在身份-音色错配。

图 2 与前沿方法在R2AV任务上的定性比较
2. RV2AV 任务对比
在RV2AV任务上将所提方法与前沿视频编辑方法 VACE 和 HunyuanCustom 进行对比。量化结果如表 2 所示。由于对比方法不支持音频生成,音频相关指标仅报告所提模型结果。结果表明,所提方法不仅在视频中心指标上达到最先进性能,而且在音频生成能力上表现优异,词错误率、音色相似度和Sync-C分数均证明其强大能力。
表 2 与前沿方法在RV2AV任务上的对比

定性结果如图 3 所示。案例(a)中,所提模型呈现更高的身份相似度与更优的视觉质量;案例(b)中,相较于基线方法,其文本跟随能力显著提升。

图 3 与前沿方法在RV2AV任务上的定性比较
3. RA2V 任务对比
针对 RA2V 任务,将所提方法与 Humo 和 HunyuanCustom 进行对比。如表 3 所示,所提方法在唇形同步精度上与 Humo 相当,并在视频相关指标上取得领先性能。
表 3 与前沿方法在RA2V任务上的对比

图 4 提供定性比较。值得注意的是,在涉及多主体的场景中,Humo 和 HunyuanCustom 均频繁出现说话人归属错误。相比之下,所提模型通过精确遵循结构化字幕,正确驱动目标主体动画。

图 4 与前沿方法在RA2V任务上的定性比较