BlendMask：高质高效的实例分割模型

课程回放

CV前沿讲座 2020/08/07 20:00:00

课程讲师

陈昊阿德莱德大学在读博士

指导老师为沈春华教授。研究方向为计算机视觉，包括实例检测分割、网络结构搜索和文字检测识别等。其研究成果发表于CVPR、IEEE等顶级会议，其中包括4篇CVPR2020。

陈昊

阿德莱德大学在读博士

课程提纲

实例分割问题的定义与研究
二阶段方案的特点与局限
BlendMask模型的框架与原理解析
BlendMask模型在实例分割、全景分割等任务上的应用

课程简介

实例分割，是机器自动从图像中用目标检测的方法框出不同的实例，然后用语义分割的方法在不同的实例区域内进行逐像素标记的过程。简单的理解就是：在同一个类的实例中区分不同的实例。在计算机视觉的任务中，由于实例分割是像素级识别轮廓任务，因此与其他类似的视觉任务相比，实例分割属于最困难的视觉任务之一。

实例分割兼具目标检测和语义分割的特点，因此逐渐演化出基于语义分割的down-top apporach与基于目标检测的top-down apporach两种方法。top-down模型是先通过一些方法获取box区域，然后对区域内的像素进行mask提取，这种模型会面临以下几个问题：1）特征和mask之间的局部一致性会丢失；2）特征提取的冗余性，不同的bbox会重新提取mask；3）由于使用缩小特征图卷积而造成的位置信息丢失。bottom-up模型则会先对整图进行逐像素预测(per-pixel prediction)，每个像素生成一个特征向量，然后通过一些方法来对像素进行分组。由于进行的是逐像素级预测且步长很小，局部一致性和位置信息可以很好的保存，但会面临以下几个问题：1）严重依赖逐像素预测的质量，容易导致非最优的分割；2）由于mask在低维提取，对于复杂场景(类别多)的分割能力有限；3）需要复杂的后处理方法。

因此综合top-down和bottom-up的策略，利用instance-level信息(bbox)对per-pixel prediction进行裁剪和加权输出的方法，成为了一种趋势。而目前虽然FCIS和YOLACT已有类似的思想，但都没有很好的处理top-level和bottom-level的特征，高维特征包含整体的instance信息，而低维特征的则保留了更好的位置信息，如何合并高低维特征，8月7日晚8点，智东西公开课邀请到阿德莱德大学在读博士、BlendMask一作陈昊参与「CV前沿讲座」第13讲，陈博士将围绕《BlendMask-高质高效的实例分割模型》这一主题进行直播讲解。

陈博士将从实例分割问题的定义与研究出发，详解二阶段实例分割方案的特点与局限，并对BlendMask模型的原理及BlendMark模型在实例分割、全景分割等任务上的应用进行深入的讲解。

陈昊是澳大利亚阿德莱德大学在读博士，指导老师为沈春华教授。陈博的研究方向为计算机视觉，包括实例检测分割、网络结构搜索和文字检测识别等。他的研究成果发表于CVPR、IEEE等顶级会议，其中包括4篇CVPR2020。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...