视觉感知新范式——万物识别大模型 RAM

课程回放

智猩猩AI新青年讲座 2023/07/27 19:00:00

课程讲师

黄新宇复旦大学在读博士

计算机学院博士生，同时是 OPPO 研究院研究实习生，并与粤港澳大湾区数字经济研究院保持密切合作；研究方向为多模态学习与图像视觉理解，提出的 Recognize Anything（RAM）模型是目前最强的开源图像识别模型。

黄新宇

复旦大学在读博士

课程提纲

图像分割大模型 SAM 概述
现有检测、分割模型的局限性
开源图像识别大模型 RAM
泛化训练及未来研究探讨

课程简介

大语言模型已经给自然语言处理领域带来了新的革命。在计算机视觉领域，Meta AI近期推出的Segment Anything Model（SAM）工作，在视觉定位（Localization）任务上取得了令人振奋的结果。然而SAM作为一个极致的定位大模型，并没有识别（Recognition）能力，而识别是与定位同等重要的CV基础任务。现有的开放式检测、分割任务尝试同时做好识别和定位，却在两个任务上都不能达到极致。

来自 OPPO 研究院、IDEA研究院的研究者们最新开源了一个视觉感知大模型Recognize Anything Model（RAM），提供最强的图像识别能力。RAM 为图像识别领域提供了一种新的范式，使用海量无需人工标注的网络数据，可以训练出泛化能力强大的通用模型，甚至在垂域下可以超越人工标注训练的有监督模型。

RAM 可以以较高的准确率自动识别超过 6400 类的图像标签，横跨学术数据集和商业化产品，并根据其 Open-Set 能力覆盖任意标签类别。

7月27日晚7点，「AI新青年讲座」第221讲邀请到 RAM 一作、OPPO 研究院研究实习生、复旦大学在读博士黄新宇参与，主讲《视觉感知新范式——万物识别大模型 RAM》。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...