绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
图像生成模型的知识注入在虚拟试衣AnyFit中的应用
智猩猩AI新青年讲座 2024/08/20 10:00:00
课程讲师
李昱翰 上海交通大学 在读三年级博士生

主要研究方向为扩散模型生成以及图像编辑。多项科研成果发表在顶级视觉会议(AAAI,CVPR,NIPS)。目前与阿里系淘天集团合作开发虚拟试衣模型,项目转化成果已经上线,被淘宝智品、AITeam、天猫国际等产品或团队接入使用。

李昱翰
上海交通大学 在读三年级博士生

主要研究方向为扩散模型生成以及图像编辑。多项科研成果发表在顶级视觉会议(AAAI,CVPR,NIPS)。目前与阿里系淘天集团合作开发虚拟试衣模型,项目转化成果已经上线,被淘宝智品、AITeam、天猫国际等产品或团队接入使用。

课程提纲
  • 1、大规模文-图基础模型的精细控制管线面临的挑战
  • 2、条件注入控制技术的演进与前沿进展
  • 3、基于细粒度条件注入的虚拟试衣技术开发
  • -服装保真性研究
  • -模型泛化性研究
  • -业务场景鲁棒性研究
  • 4、总结与展望
课程简介

2022年,Stable Diffusion模型横空出世,为工业界,投资界,学术界以及竞赛界都注入了新的AI想象空间。然而文本本身具有的模糊性与歧义性,往往需要用户熟练提词技能与反复调试;而LoRA与Dreambooth为代表的逐图重训需要昂贵且缓慢的训练,即速度慢开销大。如何让大规模文-图生成模型如臂使指?急需对大规模文-图基础模型的精细控制管线与推理阶段通用知识注入机制进行研究,以降本增效,推动其在业务场景的广泛应用。

针对以上问题,上海交通大学与阿里巴巴淘天集团共同提出了图像生成模型推理阶段的知识注入方法,并基于该方法合作开发了虚拟试衣模型AnyFit,取得了目前SOTA的试衣效果。相关论文为《AnyFit: Controllable Virtual Try-on for Any Combination of Attire Across Any Scenario 》,目前NeurIPS在投。

AnyFit主要由两个同构的U-Net组成:HydraNet和MainNet。其中,HydraNet负责提取细粒度的服装特征;MainNet负责生成试穿效果。

AnyFit以一个人像图像和一个或多个目标服装图像为输入。再使用OpenPose等工具从人像图像中提取出人体的轮廓部分,以便后续将服装图像融合到该轮廓上。

利用HydraNet对目标服装图像特征提取。在HydraNet中,通过共享的U-Net结构和并行化注意力模块来高效地整合不同服装的特征。

HydraNet提取的服装特征通过Hydra Fusion Block特征融合融合块注入到MainNet中。MainNet的输入包含三个组件(带噪声的图像、潜在的与服装无关的图像和调整大小的遮罩),然后通过内部的U-Net结构和Pose Guider进行处理,最终生成逼真的试穿图像。

同时,为了提升模型在生成服装图像时的强度和适应性,AnyFit采用了一种先验模型演化策略。该策略融合了三种不同且强大的模型权重,分别是:SDXL-base-1.0、SDXL-inpainting-0.1和DreamshaperXL alpha2,来演化模型的初始权重,以极低的成本提升了模型的性能。

8月20日10点,智猩猩邀请到论文一作、上海交通大学在读三年级博士生、阿里学术合作实习生李昱翰参与「智猩猩AI新青年讲座」248讲,主讲《图像生成模型的知识注入在虚拟试衣AnyFit中的应用》。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...