绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
Mono-InternVL: 突破原生多模态大模型性能瓶颈
智猩猩通用视觉讲座 2024/11/07 19:00:00
课程讲师
罗根 上海 AI Lab OpenGVLab 博士后研究员

罗根围绕跨媒态理解相关方向展开了一系列深入研究,在 IEEE TPAMI、IJCV、IEEE TIP、NeurIPS、CVPR、AAAI 等 CCF推荐的国际顶级期刊及会议论文上发表论文 20余篇, 6 篇论文被CVPR、ECCV和MM等顶级国际会议评为口头报告,谷歌学术总引用一千余次。

罗根
上海 AI Lab OpenGVLab 博士后研究员

罗根围绕跨媒态理解相关方向展开了一系列深入研究,在 IEEE TPAMI、IJCV、IEEE TIP、NeurIPS、CVPR、AAAI 等 CCF推荐的国际顶级期刊及会议论文上发表论文 20余篇, 6 篇论文被CVPR、ECCV和MM等顶级国际会议评为口头报告,谷歌学术总引用一千余次。

课程提纲
  • 1、模块化大模型与原生大模型对比分析
  • 2、原生多模态大模型Mono-InternVL解析
  • 3、原生MLLM面临的的灾难性遗忘问题
  • 4、增量内生视觉预训练(EViP)方法
  • 5、实验比较及模型性能展示
课程简介

现有的多模态大模型(MLLM)通常将预训练的视觉编码器与大语言模型结合来实现,即模块化MLLM。最近新兴的Chameleon、EVE等原生MLLM,将视觉感知和多模态理解直接集成到LLM中,能够更方便地通过现有工具进行部署,且具备更高的推理效率。

然而,由于原生MLLM缺乏视觉能力,但视觉预训练过程中语言基座能力常常出现灾难性遗忘问题,这导致现有原生MLLM的性能仍显著低于模块化MLLM。

为此,上海人工智能实验室通用视觉团队(OpenGVLab)联合清华大学、上海交通大学等提出了全新的原生多模态大模型Mono-InternVL。该模型采用增量预训练方法,解决了此前原生MLLM中的灾难性遗忘问题。与非原生模型相比,Mono-InternVL首个单词延迟能够降低67%,且在多个评测数据集上均达到了SOTA水准。

相比于现有多模态大模型,Mono-InternVL无需额外的视觉编码器,通过内嵌视觉专家打通了一条从大语言模型到原生多模态模型扩展的新路径,且2B模型多模态能力优于7B参数的现有原生多模态模型,多个指标超越了InternVL1.5。

Mono-InternVL兼具了视觉灵活性和部署高效性,支持高达2M像素输入的动态图像分辨率,在原生多模态架构中感知精度最高。相比于InternVL1.5,在部署框架上首个单词延迟最多降低67%,整体吞吐量提高31%。

11月7日19点,智猩猩邀请到论文一作、上海 AI Lab OpenGVLab 博士后研究员罗根参与「智猩猩通用视觉讲座」03讲,主讲《Mono-InternVL: 突破原生多模态大模型性能瓶颈》。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...