绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
基于视觉指令调整的多模态聊天机器人 LLaVA|大型语言模型专场
智猩猩AI新青年讲座 2023/07/21 10:00:00
课程讲师

本科毕业于浙江大学;曾在Microsoft Research、Cruise AI Research访问实习;主要研究方向包括构建定制化的大模型,如使用视觉指令调整的多模态聊天机器人、具有各种控制能力的图像生成模型,以及自监督学习等;相关成果发表在CVPR,ICCV,ECCV,NeurIPS,ICRA上。

柳昊天
美国维斯康星大学麦迪逊分校 在读博士

本科毕业于浙江大学;曾在Microsoft Research、Cruise AI Research访问实习;主要研究方向包括构建定制化的大模型,如使用视觉指令调整的多模态聊天机器人、具有各种控制能力的图像生成模型,以及自监督学习等;相关成果发表在CVPR,ICCV,ECCV,NeurIPS,ICRA上。

课程提纲
  • 多模态 GPT-4 及 NLP 中的指令微调
  • 多模态指令微调数据集的构建
  • LLaVA 模型结构及涌现能力
  • 量化评估与未来工作
课程简介

大型语言模型(LLM)已经表明,语言可以发挥更广泛的作用:作为通用智能助理的通用交互接口。在通用接口中,各种任务指令可以用语言明确表示,并引导端到端训练的神经网络助理切换模式来完成任务。而基于语言增强开发的视觉模型,在开放世界视觉理解方面具有更强大的能力,如分类、检测、分割和图文,以及视觉生成和视觉编辑能力。

在开源 LLM 中,由威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者通过连接 CLIP 的开源视觉编码器和语言解码器 LLaMA,开发了一个大型多模态模型(LMM)—— LLaVA,并在生成的视觉 - 语言指令数据上进行端到端微调。

实证研究验证了将生成的数据用于 LMM 进行 instruction-tuning 的有效性,并为构建遵循视觉 agent 的通用指令提供了较为实用的技巧。LLaVA 也展示出了一些接近多模态 GPT-4 的图文理解能力:相对于 GPT-4 获得了 85.1% 的相对得分。当在科学问答(Science QA)上进行微调时,LLaVA 和 GPT-4 的协同作用实现了 92.53%准确率的新 SoTA。

7月21日早10点,LLaVA 一作、美国威斯康星大学麦迪逊分校在读博士柳昊天,将围绕主题《基于视觉指令调整的多模态聊天机器人 LLaVA》对 LLaVA 进行深度讲解。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...