对比离散扩散生成模型在跨模态音乐和图像生成中的应用

智猩猩AI新青年讲座 2023/04/21 10:00:00

课程讲师

竺烨伊利诺伊理工大学在读博士

本科与硕士均毕业于上海交通大学，于伊利诺伊理工就读计算机博士，目前是普林斯顿大学计算机系访问学者；主要研究方向为计算机视觉、多模态学习和生成，相关研究成果发现在 ECCV、ICLR、TPAMI 等顶级会议及期刊上。

竺烨

伊利诺伊理工大学在读博士

课程提纲

课程简介

生成扩散概率模型（DiffusionProbabilistic Models）作为生成领域的主流模型已经得到了广泛应用。在跨模态的条件生成任务当中，除了生成数据本身的真实度等指标，模型的条件输入与生成输出的匹配度也是决定生成质量的重要因素。

现有的基于扩散模型的跨模态条件生成方法大多是将条件输入作为先验直接加入训练目标函数当中，这样的操作虽然直观但缺乏对匹配度的精细优化。

在 ICLR 2023 上，来自伊利诺伊理工大学的在读博士竺烨等人，将对比学习（contrastive learning）机制引入离散扩散模型的训练当中，通过直接增强条件输入与最终输出之间的互信息（mutual information）去提升两者之间的匹配度。

竺烨等人提出的对比离散扩散生成模型可以适用于不同的跨模态生成场景，如舞蹈视频到音乐生成、文字到图像生成、类别标签到图像生成等。在保证生成数据保真度的同时，优化两者之间的匹配度，并且加快扩散模型在训练中的收敛速度，加快生成速度。

4月21日上午10点，AI新青年讲座第205讲邀请到伊利诺伊理工大学在读博士竺烨参与，主讲《对比离散扩散生成模型在跨模态音乐和图像生成中的应用》。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

更多问题...