绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
知识蒸馏在多模态和跨模态中的应用
智猩猩AI新青年讲座 2023/02/24 10:00:00
课程讲师

德克萨斯大学奥斯汀分校在读博士

师从kristen Grauman教授,目前是Meta AI的访问研究员;曾担任清华大学交叉研究院多模态学习实验室(MARS Lab)的助理研究员,研究方向为多模态学习(图像、音频、视频、语言等),相关研究成果发表在ICCV、CVPR、Neurips、ICLR等领域顶级会议上

薛子慧
德克萨斯大学奥斯汀分校 在读博士

德克萨斯大学奥斯汀分校在读博士

师从kristen Grauman教授,目前是Meta AI的访问研究员;曾担任清华大学交叉研究院多模态学习实验室(MARS Lab)的助理研究员,研究方向为多模态学习(图像、音频、视频、语言等),相关研究成果发表在ICCV、CVPR、Neurips、ICLR等领域顶级会议上

课程提纲
  • 知识蒸馏的应用
  • 多模态知识扩展MKE
  • 跨模态知识蒸馏工作机制探讨
课程简介

多模态学习主要是研究包含不同模态数据的学习问题。常见的模态包括:视觉、文字、声音等。多模态学习的目的是增强模型的跨模态语义对齐能力,打通各个模态之间的关系,使得模型逐步标准化。目前,技术上的突出进展来自于 CLIP(匹配图像和文本)和 BEiT-3(通用多模态基础模型)。基于多领域知识,构建统一的、跨场景、多任务的多模态基础模型也已经成为人工智能的重点发展方向。那如何迁移多模态模型现有能力并降低训练成本呢?

知识蒸馏(knowledge distillation)是一种专注于从模型中提取知识的技术。如何从多模态模型蒸馏知识、以及蒸馏出知识能做什么是一个值得探讨的问题。多模态知识扩展(multimodal knowledge expansion,MKE),是一种无需标签就能有效利用多模态数据的方法。MKE基于知识蒸馏,可以将预训练好的单模态网络的知识传递给多模态网络,学生模型不仅能够去噪伪标签,而且能得到比教师模型更好的泛化效果。

跨模态知识蒸馏则将传统知识蒸馏扩展到多模态学习领域。为了实现模态之间的知识转移,采用一个模态的预训练网络作为教师,向另一个模态的学生网络提供监督信号。来自德克萨斯大学奥斯汀分校的在读博士薛子慧等人,在 ICLR 2023 上提出的最新成果中,探讨了跨模态知识蒸馏的工作机制,并提出模态维恩图(modality venn diagram)以了解多模态关系,并提出模态聚焦假说(modality focusing hypothesis),揭示了影响跨模态知识蒸馏的决定因素

2月24日早10点,AI新青年讲座第196讲邀请到德克萨斯大学奥斯汀分校在读博士薛子慧参与,主讲《知识蒸馏在多模态和跨模态中的应用》。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...