绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智东西公开课服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智东西公开课
单阶段目标检测器的高效表示学习
CV前沿讲座 2020/12/02 20:00:00
课程讲师
李翔 南开大学 副教授

李翔博士,南开大学计算机学院副教授,入选南开大学百青计划、博士后创新人才支持计划,主持国家自然科学青年基金,获江苏省人工智能学会优秀博士论文奖,CCF优秀博士论文提名奖;在CCF A 类会议CVPR、NeurIPS及权威期刊TPAMI等上发表40余篇学术论文,包括第一作者和通讯作者20余篇;谷歌学术总引用达7400余次,一作代表工作SKNet(CVPR19)引用1700余次;所提出的目标检测算法GFL系列(NeurIPS20, CVPR21, TPAMI22)累积获得600余次谷歌学术引用,收录于权威目标检测工具箱mmdetection,并成为主流轻量目标检测器YOLO系列中的标准配置;合作提出的PVT模型入选ICCV21 Top-10最具影响力工作(排名第二,第一名为马尔奖Swin Transformer)。长期担任国际人工智能顶级会议AAAI、CVPR及权威期刊TPAMI、TIP、TMM审稿人,担任PRCV23领域主席,Image and Vision Computing期刊副主编;曾带领团队夺得了2015 年阿里巴巴天池首届大数据竞赛冠军(30万奖金,1/7186队伍)、2016 年滴滴研究院首届大数据竞赛冠军(10万美元奖金,1/7664)、2022年计图Jittor人工智能挑战赛语义风景图像生成赛道冠军(5万奖金,1/154)。其中,阿里巴巴天池首届大数据竞赛中的相关算法已被应用于阿里移动电商平台中,央视科教频道《走进科学》栏目拍摄制作的八集科学纪录片《0 和1:裂变时刻》中的第四集《新引擎》专集报道了这一成果。

李翔
南开大学 副教授

李翔博士,南开大学计算机学院副教授,入选南开大学百青计划、博士后创新人才支持计划,主持国家自然科学青年基金,获江苏省人工智能学会优秀博士论文奖,CCF优秀博士论文提名奖;在CCF A 类会议CVPR、NeurIPS及权威期刊TPAMI等上发表40余篇学术论文,包括第一作者和通讯作者20余篇;谷歌学术总引用达7400余次,一作代表工作SKNet(CVPR19)引用1700余次;所提出的目标检测算法GFL系列(NeurIPS20, CVPR21, TPAMI22)累积获得600余次谷歌学术引用,收录于权威目标检测工具箱mmdetection,并成为主流轻量目标检测器YOLO系列中的标准配置;合作提出的PVT模型入选ICCV21 Top-10最具影响力工作(排名第二,第一名为马尔奖Swin Transformer)。长期担任国际人工智能顶级会议AAAI、CVPR及权威期刊TPAMI、TIP、TMM审稿人,担任PRCV23领域主席,Image and Vision Computing期刊副主编;曾带领团队夺得了2015 年阿里巴巴天池首届大数据竞赛冠军(30万奖金,1/7186队伍)、2016 年滴滴研究院首届大数据竞赛冠军(10万美元奖金,1/7664)、2022年计图Jittor人工智能挑战赛语义风景图像生成赛道冠军(5万奖金,1/154)。其中,阿里巴巴天池首届大数据竞赛中的相关算法已被应用于阿里移动电商平台中,央视科教频道《走进科学》栏目拍摄制作的八集科学纪录片《0 和1:裂变时刻》中的第四集《新引擎》专集报道了这一成果。

课程提纲
  • 单阶段目标检测的定义与现有表示学习存在的问题
  • GFLV1:对于分类、回归表示学习的高效改进及优化
  • GFLV2:对于质量估计表示学习的高效改进
课程简介

目标检测虽然是计算机视觉领域中的一项基本任务,但因为其大量的应用需求而一直受到研究者们的关注。如何设计更高性能的网络结构、如何提升现有检测模型的性能成为了研究者们研究的热点。

单阶段目标检测的基本任务是分类与定位。分类任务通常会使用Focal Loss函数进行优化,而位置回归通常是在一个狄拉克分布上进行学习。同时大家也通过在单阶段检测器上额外添加一个分支用来评估位置回归的质量优劣。比如在FCOS中,模型除了预测目标分类和位置回归,还有一个center-ness分支用户评估监测点是否在bbox中心。因此网络最终输出就是三个representation:分类表示、检测框表示和检测框的质量估计。

在NeurIPs 2020中,来自南京理工大学的李翔博士,针对现有representation中出现的两个问题:1)classification score和center-ness score在训练和推断时不一致;2)bbox regression采用的representation不够灵活(单一狄拉克分布),无法建模复杂场景。提出了一种新的respresentations-GFL(Generalized Focal Loss)。

什么是GFL?一句话总结就是:基于任意one-stage 检测器上,调整框本身与框质量估计的表示,同时用泛化版本的GFocal Loss训练该改进的表示,无cost涨点(一般1个点出头)AP。这还只是GFL的第一个版本,在GFLV2中,作者首次引入用边界框的不确定性的统计量来高效地指导检测领域中的定位质量估计,从而基本无cost(包括在训练和测试阶段)地提升one-stage的检测器性能,涨幅在1~2个点AP。是一项非常良心的技术。

12月2日晚8点,智东西公开课邀请到GFL一作、南京理工大学博士李翔参与到「CV前沿讲座」第24讲,带来主题为《单阶段目标检测器的高效表示学习》的直播讲解。李翔博士将会从单阶段目标检测的定义出发,并对现有表示学习存在的问题进行分析,最后深度解析GFLV1与GFLV2的设计思路与应用。

李翔是南京理工大学博士,导师为杨健教授,入选2020年度博士后创新人才计划。他曾是商汤科技研究院、微软亚洲研究院实习生、Momenta访问学者。他的团队曾获得阿里巴巴天池首届大数据竞赛冠军(7186支团队中排名第一),滴滴首届大数据算法竞赛冠军(7664支团队中排名第一),并以第一或共同第一作者身份发表CVPR、NeurIPs、AAAI、IJCAI、T-ITS等10余篇论文,谷歌Scholar citation 760+,代表作有选择性核网络(SKNets)、Generalized Focal Loss (GFL)和“Understanding the Disharmony”系列。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...