- 课程回放

主要研究方向为视觉语言模型以及高效机器学习,相关研究成果发现在CVPR、ICLR等顶级会议上。

主要研究方向为视觉语言模型以及高效机器学习,相关研究成果发现在CVPR、ICLR等顶级会议上。
- 大模型时代的图像分割
- 基于语言的图像分割方法研究
- 开放词汇分割模型 OVSeg 解析
- 与 Segment Anything 结合的物体类别识别
图像分割模型在过去十年取得了巨大的成就,但传统分割模型只能分割训练数据集规定的类别。与此同时,人类是以语言作为基石来理解世界的。所以,如何通过语言来进行图像分割?
开放式词汇语义分割旨在根据文本描述将图像分割成语义区域,这些区域在训练期间可能没有被看到。而现有的两阶段方法首先生成类别不可知的掩膜提案,然后利用预训练的视觉-语言模型(例如 CLIP)对被掩膜的区域进行分类。然而这种方法的性能受限于预训练的 CLIP 模型。因为 CLIP 更适合以自然图像作为输入,而目前的方法以 masked proposal 作为输入会影响 CLIP 性能。
在 CVPR 2023 上,来自 Meta、UTAustin 的学者们联合提出了一种新的开放词汇分割模型 OVSeg。OVSeg 可以通过任意用户定义的词汇来理解分割图像,并且可以让 Segment Anything 模型知道所要分隔的类别。从效果上来看,OVSeg 可以与 Segment Anything 结合,完成细粒度的开放语言分割。
7月4日早10点,「AI新青年讲座」第216讲邀请到 OVSeg 一作、德克萨斯大学奥斯汀分校在读博士梁丰参与,主讲《大模型时代的图像分割——开放词汇分割模型 OVSeg》。梁丰将从传统的二阶段开放词汇分割模型的基线出发,在理解基线方法局限的基础上深度讲解 OVSeg 。同时,他也会介绍 OVSeg 与其他模型的结合,比如Segment Anything(SAM),让SAM能够识别物体的类别。
