在吉林大学计算机科学与技术学院分别于2014年及2017年拿到本科及硕士学位。2022年博士毕业于西班牙巴塞罗那自治大学LAMP组,导师为Joost van de Weijer,主要研究课题为持续学习,vision transformer,扩散模型以及域适应等课题。毕业后至今留组作为博后指导多名博士生进行相关领域的研究工作。
- 文生图扩散模型颜色生成存在的问题
- 基于LDM的文生图精确颜色生成方法ColorPeel
- 解耦颜色和形状以提升模型颜色学习能力
- 实验结果展示与扩展应用
随着扩散模型技术的引入,文本到图像(Text-to-Image, T2I)生成技术迎来了显著的飞跃,现有模型在该领域展现出了卓越的创造力和表现力。尽管如此,文生图模型在使用语言颜色名称来指定对象颜色时,由于这些标签覆盖的颜色范围较广,难以实现精确匹配,且现有的文生图个性化方法往往会导致颜色-形状纠缠问题。
为了实现T2I任务中的精准颜色生成,来自巴塞罗那自治大学LAMP组博士后王凯提出了ColorPeel模型,首次解决了color prompt learning(颜色提示学习)问题,相关论文为《ColorPeel: Color Prompt Learning with Diffusion Models via Color and Shape Disentanglement》,收录于ECCV 2024。
ColorPeel是一种基于扩散模型的精确颜色生成方法,其核心在于通过颜色和形状的解耦来提升T2I生成中颜色的精确度。
ColorPeel首先生成一系列基础的2D或3D几何形状,并将这些形状赋予用户指定的RGB颜色值或颜色坐标,作为训练数据。
扩散模型利用训练过程中学到的颜色特征,结合用户提供的颜色提示,生成具有精确颜色的图像。
ColorPeel中引入一个创新的交叉注意力对齐损失函数进行模型更新,旨在通过将颜色和形状从自动生成的目标颜色几何物体中解耦,使得模型能够更准确地学习颜色提示,避免颜色和形状特征的混合问题。
在生成阶段,用户通过提供文本描述和颜色提示来指导图像的生成。通过反向扩散过程逐步恢复出图像的颜色和形状信息。这个过程中,模型会不断优化图像,以确保其颜色、形状以及整体风格与用户的输入高度一致。