- 课程回放
- Transformer目标检测模型DETR研究进展
- DETR系列模型训练缓慢的问题
- 利用去噪任务实现DETR模型训练加速的方法DN-DETR
- 在DETR模型中的加速表现及应用泛化
自2020年下半年开始,视觉Transformer的研究热点达到了前所未有的高潮。而引爆CV圈Transformer热潮的两个代表性文章是DETR(目标检测)和ViT(图像分类)。Detection Transformer(DETR)将Transformer作为主干架构引入到目标检测框架中,有效地消除了对许多手工设计组件,如NMS、Anchor的需求。
DETR是将目标检测任务视为一种集合预测(set prediction)的问题,用CNN提取基础特征,送入Transformer做关系建模,得到的输出通过匈牙利匹配算法与图片上的Ground-truth做匹配。但由于匈牙利匹配算法的离散性和模型训练的随机性,导致了Ground-truth的匹配变成一个动态的、不稳定的过程。
香港科技大学李峰博士等人提出了一种利用去噪任务加速DETR模型训练的方法DN-DETR。该方法将Transformer的解码器送入带有噪声的真值框,并训练模型预测其原来的真值框,通过这种方式有效的解决DETR解码器匹配不稳定的问题,让模型收敛速度翻倍。同时,DN-DETR方法是通用的,可以通过添加几十行代码轻松地插入任何类似DETR的方法,从而实现显著的改进。
以Deformable DETR模型为例,在ResNet50 Backbone下,DN-Deformable-DETR在12 epoch结果达到43.4AP,50 epoch结果达到48.6AP,让Deformable DETR模型在12 epoch setting下就可以取得好的效果。目前,此论文已被选中为CVPR 2022 Oral。
6月10日,「AI新青年讲座」第124讲特邀香港科技大学在读博士李峰参与,主讲《Transformer目标检测模型DETR的训练加速方法》。