- 课程回放
10%成本定制类 GPT-4 多模态对话模型
大模型技术公开课 2023/05/29 19:00:00
课程讲师

张傲
新加坡国立大学 在读博士
研究方向为多模态学习,导师为Chua Tat-Seng;曾在 ICCV、ECCV、EMNLP 等顶会发表多篇论文;代表工作有超大规模场景图生成方法 IETrans (ECCV 2022 Oral),多模态提示学习方法 colorful prompt tuning (CPT)。
课程提纲
- 新一代多模态大模型概述
- 类 GPT4 多模态模型构建框架 VPGTrans
- VPGTrans重点实验解析
- VPGTrans应用实例:开源 VL-LLaMA 和 VL-Vicuna
课程简介
5月29日晚7点,新加坡国立大学在读博士张傲将带来「大型语言模型技术公开课」第二讲的直播,讲解的主题为《10%成本定制类 GPT-4 多模态对话模型》。
GPT-4、BLIP-2、Flamingo 等多模态(对话)大模型的出现,将大语言模型的强大能力扩展到多模态输入,实现了强大的多模态语义理解。然而,训练一个多模态对话模型往往需要成百上千块 GPU、以及很长时间和上亿的数据。
针对多模态(对话)大模型,来自新加坡国立大学、清华大学的研究者们开源了一个 VPGTrans 框架,可以将已有的 BLIP-2 OPT-6.7B 模型的训练开销由 17901 元缩减到 1673 元,且模型效果相仿或更好。
同时,在近期新放出的语言模型 LLaMA 和 Vicuna 上,研究者们也对 VPGTrans 进行了验证 ,构建并开源了 VL-LLaMA 和 VL-Vicuna 模型。其中,VL-Vicuna 模型可以进行高质量的多模态对话。
在这一讲,张傲首先会对新一代的多模态大模型进行梳理,之后深度讲解类 GPT4 多模态模型构建框架 VPGTrans 及其原理。最后,他也会对 VPGTrans 的两个应用实例:开源 VL-LLaMA 和 VL-Vicuna 进行解读。
精彩问答
提问
提问
