绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
大模型时代的图像分割——开放词汇分割模型 OVSeg
智猩猩AI新青年讲座 2023/07/04 10:00:00
课程讲师

主要研究方向为视觉语言模型以及高效机器学习,相关研究成果发现在CVPR、ICLR等顶级会议上。

梁丰
德克萨斯大学奥斯汀分校 在读博士

主要研究方向为视觉语言模型以及高效机器学习,相关研究成果发现在CVPR、ICLR等顶级会议上。

课程提纲
  • 大模型时代的图像分割
  • 基于语言的图像分割方法研究
  • 开放词汇分割模型 OVSeg 解析
  • 与 Segment Anything 结合的物体类别识别
课程简介

图像分割模型在过去十年取得了巨大的成就,但传统分割模型只能分割训练数据集规定的类别。与此同时,人类是以语言作为基石来理解世界的。所以,如何通过语言来进行图像分割?

开放式词汇语义分割旨在根据文本描述将图像分割成语义区域,这些区域在训练期间可能没有被看到。而现有的两阶段方法首先生成类别不可知的掩膜提案,然后利用预训练的视觉-语言模型(例如 CLIP)对被掩膜的区域进行分类。然而这种方法的性能受限于预训练的 CLIP 模型。因为 CLIP 更适合以自然图像作为输入,而目前的方法以 masked proposal 作为输入会影响 CLIP 性能。

在 CVPR 2023 上,来自 Meta、UTAustin 的学者们联合提出了一种新的开放词汇分割模型 OVSeg。OVSeg 可以通过任意用户定义的词汇来理解分割图像,并且可以让 Segment Anything 模型知道所要分隔的类别。从效果上来看,OVSeg 可以与 Segment Anything 结合,完成细粒度的开放语言分割。

7月4日早10点,「AI新青年讲座」第216讲邀请到 OVSeg 一作、德克萨斯大学奥斯汀分校在读博士梁丰参与,主讲《大模型时代的图像分割——开放词汇分割模型 OVSeg》。梁丰将从传统的二阶段开放词汇分割模型的基线出发,在理解基线方法局限的基础上深度讲解 OVSeg 。同时,他也会介绍 OVSeg 与其他模型的结合,比如Segment Anything(SAM),让SAM能够识别物体的类别。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...