绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
LLaVA-Plus:学习使用视觉工具插件的多模态智能体|大型语言模型专场
智猩猩AI新青年讲座 2023/12/26 19:00:00
课程讲师
刘世隆 清华大学 清华大学在读博士

粤港澳大湾区数字经济研究院(IDEA)实习生,研究兴趣为计算机视觉,尤其关注目标检测、多模态理解等工作,目前在ICLR,CVPR等会议发表多篇工作。

刘世隆
清华大学 清华大学在读博士

粤港澳大湾区数字经济研究院(IDEA)实习生,研究兴趣为计算机视觉,尤其关注目标检测、多模态理解等工作,目前在ICLR,CVPR等会议发表多篇工作。

课程提纲
  • AI Agent 的研究概述
  • 基于大语言模型的多模态智能体构建方法
  • LLaVA-Plus 多模态能力的插件实现
  • LLaVA-Plus 的 SoTA 性能验证
课程简介

LLaVA 是第一个在图像理解和推理方面具有类似 GPT-4V 级别的能力的开源大模型。在去年7月份,LLaVA 一作、美国威斯康星大学麦迪逊分校在读博士柳昊天,曾围绕主题《基于视觉指令调整的多模态聊天机器人 LLaVA》对 LLaVA 进行深度讲解。在今年的NeurIPS 2023 上,LLaVA 也获得了 Oral。

结合最近的 AI Agent,柳昊天博士联合清华大学的刘世隆博士等又最新提出了 LLaVA-Plus,使用插件(视觉工具)提升多模态大语言模型的视觉能力。我们扩展了多模态大语言模型,使其支持了包括检测、分割、检索、生成、编辑在内的多种视觉能力。

LLaVA-Plus 维护着一个技能库,其中包含各种视觉和视觉语言预训练模型(工具),并且能够根据用户的多模式输入激活相关工具,以即时组合执行结果来完成许多现实任务。通过实验也验证了 LLaVA-Plus 的有效性,在多个基准测试中取得了持续改进的结果,特别是在 VisIT-Bench 上达到了的新 SoTA。

12月26日晚7点,LLaVA-Plus 一作、清华大学在读博士刘世隆将参与到「AI新青年讲座」第232讲,主讲《LLaVA-Plus:学习使用视觉工具插件的多模态智能体》。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...