文生图扩散模型中的精确颜色生成

智猩猩AI新青年讲座 2024/08/15 10:00:00

课程讲师

王凯巴塞罗那自治大学 LAMP组博士后

在吉林大学计算机科学与技术学院分别于2014年及2017年拿到本科及硕士学位。2022年博士毕业于西班牙巴塞罗那自治大学LAMP组，导师为Joost van de Weijer，主要研究课题为持续学习，vision transformer，扩散模型以及域适应等课题。毕业后至今留组作为博后指导多名博士生进行相关领域的研究工作。

王凯

巴塞罗那自治大学 LAMP组博士后

课程提纲

文生图扩散模型颜色生成存在的问题
基于LDM的文生图精确颜色生成方法ColorPeel
解耦颜色和形状以提升模型颜色学习能力
实验结果展示与扩展应用

课程简介

随着扩散模型技术的引入，文本到图像（Text-to-Image, T2I）生成技术迎来了显著的飞跃，现有模型在该领域展现出了卓越的创造力和表现力。尽管如此，文生图模型在使用语言颜色名称来指定对象颜色时，由于这些标签覆盖的颜色范围较广，难以实现精确匹配，且现有的文生图个性化方法往往会导致颜色-形状纠缠问题。

为了实现T2I任务中的精准颜色生成，来自巴塞罗那自治大学LAMP组博士后王凯提出了ColorPeel模型，首次解决了color prompt learning（颜色提示学习）问题，相关论文为《ColorPeel: Color Prompt Learning with Diffusion Models via Color and Shape Disentanglement》，收录于ECCV 2024。

ColorPeel是一种基于扩散模型的精确颜色生成方法，其核心在于通过颜色和形状的解耦来提升T2I生成中颜色的精确度。

ColorPeel首先生成一系列基础的2D或3D几何形状，并将这些形状赋予用户指定的RGB颜色值或颜色坐标，作为训练数据。

扩散模型利用训练过程中学到的颜色特征，结合用户提供的颜色提示，生成具有精确颜色的图像。

ColorPeel中引入一个创新的交叉注意力对齐损失函数进行模型更新，旨在通过将颜色和形状从自动生成的目标颜色几何物体中解耦，使得模型能够更准确地学习颜色提示，避免颜色和形状特征的混合问题。

在生成阶段，用户通过提供文本描述和颜色提示来指导图像的生成。通过反向扩散过程逐步恢复出图像的颜色和形状信息。这个过程中，模型会不断优化图像，以确保其颜色、形状以及整体风格与用户的输入高度一致。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...