绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
0
0
GRPO统一多模态!字节Seed提出统一RL框架UniGRPO,让推理真正驱动视觉生成
分类: AI论文解读
2026-04-02 10:43:00

智猩猩AI整理 

编辑:六六 

近年来,生成式人工智能正朝着能够进行“交错生成”(interleaved generation)的统一多模态模型发展。这类模型能够在同一框架内同时完成文本生成与图像生成,并支持二者之间的交替交互。

字节Seed研究团队提出一种专为交错生成设计的统一强化学习框架——UniGRPO,将“提示词→思考→图像”序列建模为单一马尔可夫决策过程(Markov Decision Process)。遵循极简原则,集成成熟方案:推理部分采用标准 GRPO,视觉合成部分采用 FlowGRPO。该统一训练方案通过推理机制显著提升了图像生成质量,为未来完整交错模型的后续训练建立了稳健且可扩展的基线。

  • 论文标题:UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation

  • 论文链接:https://arxiv.org/pdf/2603.23500v1

01 方法

图 1  UniGRPO概述

1. 多模态生成作为马尔可夫决策过程

将交错生成建模为连续马尔可夫决策过程,每个决策步在文本阶段对应单个词元预测,在图像阶段对应单个去噪步。

  • 状态空间:状态在两个阶段中演化。文本阶段包含输入提示及已生成的推理词元;图像阶段包含提示、完整推理轨迹、当前带噪图像隐变量及流时间步。
  • 动作空间:文本阶段为从词表中选取的单个词元;图像阶段为下一流步的去噪隐变量。
  • 转移:两阶段均为确定性转移。文本阶段将选取的词元追加至序列末尾;图像阶段将隐变量推进至下一流步。
  • 奖励:仅在图像完全去噪后根据最终结果赋予稀疏的终端奖励,所有中间步奖励为零。

2.  UniGRPO 框架

给定一个执行交错生成的统一模型,UniGRPO 将完整生成过程建模为马尔可夫决策过程,并通过 GRPO 进行更新。

具体而言,对于给定提示,首先生成多条推理链,每条推理链再生成对应的图像轨迹。基于完整多模态轨迹的终端奖励计算组相对优势,并利用这些优势通过统一目标函数对模型进行更新。

为提升框架对多轮交错生成的可扩展性,在训练方案中引入两项关键改进:

消除无分类器引导:在训练阶段,完全移除无分类器引导,采用无分支的线性展开轨迹,以确保计算图简洁、梯度估计稳定。

虽然移除引导通常会导致模型对提示的响应有所下降,但通过强化学习直接优化文本-图像对齐与图像质量的奖励信号,模型能够将对齐能力逐步内化至自身参数中。由此在保持高效训练的同时,也为后续扩展至多轮交互与多条件生成任务奠定了基础。

基于速度的正则化:防止奖励破解是视觉生成强化学习中的核心挑战。为获得更稳健的约束,对所有噪声水平施加一致的速度场约束,即直接在未加权的速度场上计算均方误差惩罚。

这使得优化后的模型在所有噪声水平下都与原始模型保持接近,从而减少策略钻空子的可能,在有效缓解奖励破解的同时,也保留了基座模型原有的生成先验。

02评估

表 1 结果表明,有监督微调显著提升了 Bagel 的基础能力。在所有强化学习方法中,UniGRPO 取得最优性能,文本对齐基准得分 0.8381,GenEval 得分 0.90。UniGRPO、FlowGRPO 与 TextGRPO 的对比表明,联合优化推理与生成策略优于单独优化任一组件。此外,在 Bagel 上启用显式推理链并未持续提升 GenEval 得分,这与其推理模块主要针对知识推理训练有关,不完全适用于简短提示改写任务。然而,UniGRPO 成功利用推理链实现了最先进性能。

表 1  在 TA 与 GenEval 上的主要结果。所有强化学习方法均从经过有监督微调后的 Bagel 检查点开始初始化。“Thinking” 表示该方法是否显式生成中间推理词元。“-” 表示训练崩溃。

图 2 UniGRPO 的推理与视觉输出。联合强化学习优化产生了任务导向的推理,从而引导合成策略生成忠实、逼真的图像。 

定性分析:如图 3 所示,原始 Bagel 生成的图像存在颜色过饱和及明显的人工伪影。有监督微调虽有助于减轻人工伪影,但会降低图像锐度,导致细看时出现明显模糊。所提出的 UniGRPO 克服了这一局限,显著提升了图像美学质量与文本-图像对齐能力,生成的照片级真实感图像细节丰富,且忠实反映了复杂的用户提示。

图 3  T2I 定性比较