大模型时代的图像分割——开放词汇分割模型 OVSeg

课程回放

智猩猩AI新青年讲座 2023/07/04 10:00:00

课程讲师

梁丰德克萨斯大学奥斯汀分校在读博士

主要研究方向为视觉语言模型以及高效机器学习，相关研究成果发现在CVPR、ICLR等顶级会议上。

梁丰

德克萨斯大学奥斯汀分校在读博士

主要研究方向为视觉语言模型以及高效机器学习，相关研究成果发现在CVPR、ICLR等顶级会议上。

课程提纲

大模型时代的图像分割
基于语言的图像分割方法研究
开放词汇分割模型 OVSeg 解析
与 Segment Anything 结合的物体类别识别

课程简介

图像分割模型在过去十年取得了巨大的成就，但传统分割模型只能分割训练数据集规定的类别。与此同时，人类是以语言作为基石来理解世界的。所以，如何通过语言来进行图像分割？

开放式词汇语义分割旨在根据文本描述将图像分割成语义区域，这些区域在训练期间可能没有被看到。而现有的两阶段方法首先生成类别不可知的掩膜提案，然后利用预训练的视觉-语言模型（例如 CLIP）对被掩膜的区域进行分类。然而这种方法的性能受限于预训练的 CLIP 模型。因为 CLIP 更适合以自然图像作为输入，而目前的方法以 masked proposal 作为输入会影响 CLIP 性能。

在 CVPR 2023 上，来自 Meta、UTAustin 的学者们联合提出了一种新的开放词汇分割模型 OVSeg。OVSeg 可以通过任意用户定义的词汇来理解分割图像，并且可以让 Segment Anything 模型知道所要分隔的类别。从效果上来看，OVSeg 可以与 Segment Anything 结合，完成细粒度的开放语言分割。

7月4日早10点，「AI新青年讲座」第216讲邀请到 OVSeg 一作、德克萨斯大学奥斯汀分校在读博士梁丰参与，主讲《大模型时代的图像分割——开放词汇分割模型 OVSeg》。梁丰将从传统的二阶段开放词汇分割模型的基线出发，在理解基线方法局限的基础上深度讲解 OVSeg 。同时，他也会介绍 OVSeg 与其他模型的结合，比如Segment Anything（SAM），让SAM能够识别物体的类别。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...