- 课程回放
对比离散扩散生成模型在跨模态音乐和图像生成中的应用
智猩猩AI新青年讲座 2023/04/21 10:00:00
课程讲师
课程提纲
- 生成扩散模型概述
- 跨模态的条件生成方法解析
- 引入对比学习机制的对比离散扩散生成模型
- 跨模态的视频-音乐和文本-图像生成应用
课程简介
生成扩散概率模型(DiffusionProbabilistic Models)作为生成领域的主流模型已经得到了广泛应用。在跨模态的条件生成任务当中,除了生成数据本身的真实度等指标,模型的条件输入与生成输出的匹配度也是决定生成质量的重要因素。
现有的基于扩散模型的跨模态条件生成方法大多是将条件输入作为先验直接加入训练目标函数当中,这样的操作虽然直观但缺乏对匹配度的精细优化。
在 ICLR 2023 上,来自伊利诺伊理工大学的在读博士竺烨等人,将对比学习(contrastive learning)机制引入离散扩散模型的训练当中,通过直接增强条件输入与最终输出之间的互信息(mutual information)去提升两者之间的匹配度。
竺烨等人提出的对比离散扩散生成模型可以适用于不同的跨模态生成场景,如舞蹈视频到音乐生成、文字到图像生成、类别标签到图像生成等。在保证生成数据保真度的同时,优化两者之间的匹配度,并且加快扩散模型在训练中的收敛速度,加快生成速度。
4月21日上午10点,AI新青年讲座第205讲邀请到伊利诺伊理工大学在读博士竺烨参与,主讲《对比离散扩散生成模型在跨模态音乐和图像生成中的应用》。
精彩问答
提问
提问