- 课程回放
LLaVA-Plus:学习使用视觉工具插件的多模态智能体|大型语言模型专场
智猩猩AI新青年讲座 2023/12/26 19:00:00
课程讲师
课程提纲
- AI Agent 的研究概述
- 基于大语言模型的多模态智能体构建方法
- LLaVA-Plus 多模态能力的插件实现
- LLaVA-Plus 的 SoTA 性能验证
课程简介
LLaVA 是第一个在图像理解和推理方面具有类似 GPT-4V 级别的能力的开源大模型。在去年7月份,LLaVA 一作、美国威斯康星大学麦迪逊分校在读博士柳昊天,曾围绕主题《基于视觉指令调整的多模态聊天机器人 LLaVA》对 LLaVA 进行深度讲解。在今年的NeurIPS 2023 上,LLaVA 也获得了 Oral。
结合最近的 AI Agent,柳昊天博士联合清华大学的刘世隆博士等又最新提出了 LLaVA-Plus,使用插件(视觉工具)提升多模态大语言模型的视觉能力。我们扩展了多模态大语言模型,使其支持了包括检测、分割、检索、生成、编辑在内的多种视觉能力。
LLaVA-Plus 维护着一个技能库,其中包含各种视觉和视觉语言预训练模型(工具),并且能够根据用户的多模式输入激活相关工具,以即时组合执行结果来完成许多现实任务。通过实验也验证了 LLaVA-Plus 的有效性,在多个基准测试中取得了持续改进的结果,特别是在 VisIT-Bench 上达到了的新 SoTA。
12月26日晚7点,LLaVA-Plus 一作、清华大学在读博士刘世隆将参与到「AI新青年讲座」第232讲,主讲《LLaVA-Plus:学习使用视觉工具插件的多模态智能体》。
精彩问答
提问
提问
