绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
对比离散扩散生成模型在跨模态音乐和图像生成中的应用
智猩猩AI新青年讲座 2023/04/21 10:00:00
课程讲师

本科与硕士均毕业于上海交通大学,于伊利诺伊理工就读计算机博士,目前是普林斯顿大学计算机系访问学者;主要研究方向为计算机视觉、多模态学习和生成,相关研究成果发现在 ECCV、ICLR、TPAMI 等顶级会议及期刊上。

竺烨
伊利诺伊理工大学 在读博士

本科与硕士均毕业于上海交通大学,于伊利诺伊理工就读计算机博士,目前是普林斯顿大学计算机系访问学者;主要研究方向为计算机视觉、多模态学习和生成,相关研究成果发现在 ECCV、ICLR、TPAMI 等顶级会议及期刊上。

课程提纲
  • 生成扩散模型概述
  • 跨模态的条件生成方法解析
  • 引入对比学习机制的对比离散扩散生成模型
  • 跨模态的视频-音乐和文本-图像生成应用
课程简介

生成扩散概率模型(DiffusionProbabilistic Models)作为生成领域的主流模型已经得到了广泛应用。在跨模态的条件生成任务当中,除了生成数据本身的真实度等指标,模型的条件输入与生成输出的匹配度也是决定生成质量的重要因素。

现有的基于扩散模型的跨模态条件生成方法大多是将条件输入作为先验直接加入训练目标函数当中,这样的操作虽然直观但缺乏对匹配度的精细优化。

在 ICLR 2023 上,来自伊利诺伊理工大学的在读博士竺烨等人,将对比学习(contrastive learning)机制引入离散扩散模型的训练当中,通过直接增强条件输入与最终输出之间的互信息(mutual information)去提升两者之间的匹配度。

竺烨等人提出的对比离散扩散生成模型可以适用于不同的跨模态生成场景,如舞蹈视频到音乐生成、文字到图像生成、类别标签到图像生成等。在保证生成数据保真度的同时,优化两者之间的匹配度,并且加快扩散模型在训练中的收敛速度,加快生成速度。

4月21日上午10点,AI新青年讲座第205讲邀请到伊利诺伊理工大学在读博士竺烨参与,主讲《对比离散扩散生成模型在跨模态音乐和图像生成中的应用》。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...