Transformer目标检测模型DETR的训练加速方法

课程回放

智猩猩AI新青年讲座 2022/06/10 19:00:00

课程讲师

李峰香港科技大学在读博士

由沈向洋教授和倪明选教授指导，感兴趣的方向是计算机视觉、目标检测和多模态学习，本科毕业于华南理工大学。

李峰

香港科技大学在读博士

由沈向洋教授和倪明选教授指导，感兴趣的方向是计算机视觉、目标检测和多模态学习，本科毕业于华南理工大学。

课程提纲

Transformer目标检测模型DETR研究进展
DETR系列模型训练缓慢的问题
利用去噪任务实现DETR模型训练加速的方法DN-DETR
在DETR模型中的加速表现及应用泛化

课程简介

自2020年下半年开始，视觉Transformer的研究热点达到了前所未有的高潮。而引爆CV圈Transformer热潮的两个代表性文章是DETR（目标检测）和ViT（图像分类）。Detection Transformer（DETR）将Transformer作为主干架构引入到目标检测框架中，有效地消除了对许多手工设计组件，如NMS、Anchor的需求。

DETR是将目标检测任务视为一种集合预测（set prediction）的问题，用CNN提取基础特征，送入Transformer做关系建模，得到的输出通过匈牙利匹配算法与图片上的Ground-truth做匹配。但由于匈牙利匹配算法的离散性和模型训练的随机性，导致了Ground-truth的匹配变成一个动态的、不稳定的过程。

香港科技大学李峰博士等人提出了一种利用去噪任务加速DETR模型训练的方法DN-DETR。该方法将Transformer的解码器送入带有噪声的真值框，并训练模型预测其原来的真值框，通过这种方式有效的解决DETR解码器匹配不稳定的问题，让模型收敛速度翻倍。同时，DN-DETR方法是通用的，可以通过添加几十行代码轻松地插入任何类似DETR的方法，从而实现显著的改进。

以Deformable DETR模型为例，在ResNet50 Backbone下，DN-Deformable-DETR在12 epoch结果达到43.4AP，50 epoch结果达到48.6AP，让Deformable DETR模型在12 epoch setting下就可以取得好的效果。目前，此论文已被选中为CVPR 2022 Oral。

6月10日，「AI新青年讲座」第124讲特邀香港科技大学在读博士李峰参与，主讲《Transformer目标检测模型DETR的训练加速方法》。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...