基于视觉指令调整的多模态聊天机器人 LLaVA

课程回放

基于视觉指令调整的多模态聊天机器人 LLaVA｜大型语言模型专场

智猩猩AI新青年讲座 2023/07/21 10:00:00

课程讲师

柳昊天美国维斯康星大学麦迪逊分校在读博士

本科毕业于浙江大学；曾在Microsoft Research、Cruise AI Research访问实习；主要研究方向包括构建定制化的大模型，如使用视觉指令调整的多模态聊天机器人、具有各种控制能力的图像生成模型，以及自监督学习等；相关成果发表在CVPR，ICCV，ECCV，NeurIPS，ICRA上。

柳昊天

美国维斯康星大学麦迪逊分校在读博士

课程提纲

多模态 GPT-4 及 NLP 中的指令微调
多模态指令微调数据集的构建
LLaVA 模型结构及涌现能力
量化评估与未来工作

课程简介

大型语言模型（LLM）已经表明，语言可以发挥更广泛的作用：作为通用智能助理的通用交互接口。在通用接口中，各种任务指令可以用语言明确表示，并引导端到端训练的神经网络助理切换模式来完成任务。而基于语言增强开发的视觉模型，在开放世界视觉理解方面具有更强大的能力，如分类、检测、分割和图文，以及视觉生成和视觉编辑能力。

在开源 LLM 中，由威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者通过连接 CLIP 的开源视觉编码器和语言解码器 LLaMA，开发了一个大型多模态模型（LMM）—— LLaVA，并在生成的视觉 - 语言指令数据上进行端到端微调。

实证研究验证了将生成的数据用于 LMM 进行 instruction-tuning 的有效性，并为构建遵循视觉 agent 的通用指令提供了较为实用的技巧。LLaVA 也展示出了一些接近多模态 GPT-4 的图文理解能力：相对于 GPT-4 获得了 85.1% 的相对得分。当在科学问答（Science QA）上进行微调时，LLaVA 和 GPT-4 的协同作用实现了 92.53%准确率的新 SoTA。

7月21日早10点，LLaVA 一作、美国威斯康星大学麦迪逊分校在读博士柳昊天，将围绕主题《基于视觉指令调整的多模态聊天机器人 LLaVA》对 LLaVA 进行深度讲解。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...