- 课程回放

本科毕业于浙江大学;曾在Microsoft Research、Cruise AI Research访问实习;主要研究方向包括构建定制化的大模型,如使用视觉指令调整的多模态聊天机器人、具有各种控制能力的图像生成模型,以及自监督学习等;相关成果发表在CVPR,ICCV,ECCV,NeurIPS,ICRA上。

本科毕业于浙江大学;曾在Microsoft Research、Cruise AI Research访问实习;主要研究方向包括构建定制化的大模型,如使用视觉指令调整的多模态聊天机器人、具有各种控制能力的图像生成模型,以及自监督学习等;相关成果发表在CVPR,ICCV,ECCV,NeurIPS,ICRA上。
- 多模态 GPT-4 及 NLP 中的指令微调
- 多模态指令微调数据集的构建
- LLaVA 模型结构及涌现能力
- 量化评估与未来工作
大型语言模型(LLM)已经表明,语言可以发挥更广泛的作用:作为通用智能助理的通用交互接口。在通用接口中,各种任务指令可以用语言明确表示,并引导端到端训练的神经网络助理切换模式来完成任务。而基于语言增强开发的视觉模型,在开放世界视觉理解方面具有更强大的能力,如分类、检测、分割和图文,以及视觉生成和视觉编辑能力。
在开源 LLM 中,由威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者通过连接 CLIP 的开源视觉编码器和语言解码器 LLaMA,开发了一个大型多模态模型(LMM)—— LLaVA,并在生成的视觉 - 语言指令数据上进行端到端微调。
实证研究验证了将生成的数据用于 LMM 进行 instruction-tuning 的有效性,并为构建遵循视觉 agent 的通用指令提供了较为实用的技巧。LLaVA 也展示出了一些接近多模态 GPT-4 的图文理解能力:相对于 GPT-4 获得了 85.1% 的相对得分。当在科学问答(Science QA)上进行微调时,LLaVA 和 GPT-4 的协同作用实现了 92.53%准确率的新 SoTA。
7月21日早10点,LLaVA 一作、美国威斯康星大学麦迪逊分校在读博士柳昊天,将围绕主题《基于视觉指令调整的多模态聊天机器人 LLaVA》对 LLaVA 进行深度讲解。
