10%成本定制类 GPT-4 多模态对话模型

大模型技术公开课 2023/05/29 19:00:00

课程讲师

张傲新加坡国立大学在读博士

研究方向为多模态学习，导师为Chua Tat-Seng；曾在 ICCV、ECCV、EMNLP 等顶会发表多篇论文；代表工作有超大规模场景图生成方法 IETrans (ECCV 2022 Oral)，多模态提示学习方法 colorful prompt tuning (CPT)。

张傲

新加坡国立大学在读博士

课程提纲

课程简介

5月29日晚7点，新加坡国立大学在读博士张傲将带来「大型语言模型技术公开课」第二讲的直播，讲解的主题为《10%成本定制类 GPT-4 多模态对话模型》。

GPT-4、BLIP-2、Flamingo 等多模态（对话）大模型的出现，将大语言模型的强大能力扩展到多模态输入，实现了强大的多模态语义理解。然而，训练一个多模态对话模型往往需要成百上千块 GPU、以及很长时间和上亿的数据。

针对多模态（对话）大模型，来自新加坡国立大学、清华大学的研究者们开源了一个 VPGTrans 框架，可以将已有的 BLIP-2 OPT-6.7B 模型的训练开销由 17901 元缩减到 1673 元，且模型效果相仿或更好。

同时，在近期新放出的语言模型 LLaMA 和 Vicuna 上，研究者们也对 VPGTrans 进行了验证，构建并开源了 VL-LLaMA 和 VL-Vicuna 模型。其中，VL-Vicuna 模型可以进行高质量的多模态对话。

在这一讲，张傲首先会对新一代的多模态大模型进行梳理，之后深度讲解类 GPT4 多模态模型构建框架 VPGTrans 及其原理。最后，他也会对 VPGTrans 的两个应用实例：开源 VL-LLaMA 和 VL-Vicuna 进行解读。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

更多问题...