不同扩散模型合作实现多模态人脸生成与编辑

课程回放

智猩猩AI新青年讲座 2023/06/09 18:00:00

课程讲师

黄子琪南洋理工大学 MMLab在读博士

由刘子纬教授指导；广泛关注计算机视觉和深度学习领域，目前研究重点是生成模型、视觉生成和编辑，在CVPR、ICCV、ICIP 等会议上发表论文；本科于2022年以专业第一的成绩毕业于南洋理工大学EEE学院。

黄子琪

南洋理工大学 MMLab在读博士

课程提纲

扩散模型的应用现状及经典模型解析
多个预训练扩散模型合作的实现方法
不同种类扩散模型合作的多功能生成框架
高质量的多模态控制的人脸生成和编辑

课程简介

自从扩散模型（Diffusion Models）展现出了强大的生成能力后，不同种类的扩散模型各显神通 —— 有可以根据文字生成图片的 text-to-image 模型，有可以从分割图生成图片mask-to-image 模型，也有生成视频、3D、motion 等等内容的扩散生成模型。

那有没有一种方法可以让这些预训练扩散模型合作起来，发挥各自的专长，实现一个多功能的生成框架呢？比如当 text-to-image 模型与 mask-to-image 模型合作时，我们就可以同时接受 text 和 mask 输入，并生成与 text 和 mask 一致的图片了。

在 CVPR 2023 上，来自南洋理工大学 MMLab 的博士生黄子琪等人提出了一种简单有效的方法来实现不同扩散模型之间的合作：Collaborative Diffusion。基于扩散模型迭代去噪的性质，Collaborative Diffusion 在去噪的每一步都会动态地预测不同的扩散模型如何有效合作，各取所长。并且可以实现高质量的多模态控制的人脸生成和编辑。此外，作为一个通用框架，Collaborative Diffusion 不仅适用于图片生成，还适用于图片编辑，以及未来更多的基于扩散模型的其他任务。

6月9日晚6点，「AI新青年讲座」第213讲邀请到 Collaborative Diffusion 一作、南洋理工大学MMLab在读博士黄子琪参与，主讲《不同扩散模型合作实现多模态人脸生成与编辑》。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...