LLaVA-Plus：学习使用视觉工具插件的多模态智能体

课程回放

LLaVA-Plus：学习使用视觉工具插件的多模态智能体｜大型语言模型专场

智猩猩AI新青年讲座 2023/12/26 19:00:00

课程讲师

刘世隆清华大学清华大学在读博士

粤港澳大湾区数字经济研究院（IDEA）实习生，研究兴趣为计算机视觉，尤其关注目标检测、多模态理解等工作，目前在ICLR,CVPR等会议发表多篇工作。

刘世隆

清华大学清华大学在读博士

粤港澳大湾区数字经济研究院（IDEA）实习生，研究兴趣为计算机视觉，尤其关注目标检测、多模态理解等工作，目前在ICLR,CVPR等会议发表多篇工作。

课程提纲

AI Agent 的研究概述
基于大语言模型的多模态智能体构建方法
LLaVA-Plus 多模态能力的插件实现
LLaVA-Plus 的 SoTA 性能验证

课程简介

LLaVA 是第一个在图像理解和推理方面具有类似 GPT-4V 级别的能力的开源大模型。在去年7月份，LLaVA 一作、美国威斯康星大学麦迪逊分校在读博士柳昊天，曾围绕主题《基于视觉指令调整的多模态聊天机器人 LLaVA》对 LLaVA 进行深度讲解。在今年的NeurIPS 2023 上，LLaVA 也获得了 Oral。

结合最近的 AI Agent，柳昊天博士联合清华大学的刘世隆博士等又最新提出了 LLaVA-Plus，使用插件（视觉工具）提升多模态大语言模型的视觉能力。我们扩展了多模态大语言模型，使其支持了包括检测、分割、检索、生成、编辑在内的多种视觉能力。

LLaVA-Plus 维护着一个技能库，其中包含各种视觉和视觉语言预训练模型（工具），并且能够根据用户的多模式输入激活相关工具，以即时组合执行结果来完成许多现实任务。通过实验也验证了 LLaVA-Plus 的有效性，在多个基准测试中取得了持续改进的结果，特别是在 VisIT-Bench 上达到了的新 SoTA。

12月26日晚7点，LLaVA-Plus 一作、清华大学在读博士刘世隆将参与到「AI新青年讲座」第232讲，主讲《LLaVA-Plus：学习使用视觉工具插件的多模态智能体》。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...