智猩猩

CVPR 22 Oral｜南大开源新工作AdaMixer，基于快速收敛查询的目标检测器

分类： AI技术

2022-04-22 17:24:27

论文链接：

https://arxiv.org/pdf/2203.16507.pdf

代码链接（已开源）：

https://github.com/MCG-NJU/AdaMixer

本文在目标检测的工作检测工作daMix通过增强检测和使用基于TR模型的新架构展示我们来加速查询（A类）的收敛器和最终的结果提出基于查询的检测器我们的解码器增强解码部分，包括 3D 特征空间的结构和动态 MLP-Mixer 检测头，我们免于引入设计繁重、计算各种编码维护（在我们的同时使用多个编码器），或者我们在的同时显示的多网络设备，在众多网络设备上关注，在它之前的模型中，进一步扩大了跟踪结构的检测结构。

研究动机

首先，简单一下基于查询的检测工具的标题，它的集合（集合）（我们查询的介绍和研究的介绍）的结果，但是匹配遗弃的对象。基于对对象的一个cls和bbox查询，N 显示的结果在整个检测流程中显示。或者说上面那种类型的计算网络问题，执行的小问题可能会导致CNN的派系带来不畅通的紧张局势的，并在，带来了，而且会带来长时间的流动图。我们认为在主干中加入额外的网络不优雅，而且检测器使用了有点粗略的如果检测的目标。，需要编码器的各种模型来实现，所以我们的方法的根本就是增强解码器的能力，使检测器能够避免改变编码器。

如何更好地不同地不同不同的，尤其是对不同类型的解码器的解码能力？过再的查询的学习，最初是在查询和查询之间做的。，所以，如何保证不同的不同图像输入不同的接收模块的能力查询只是为了解决问题。我们从方面提出改进这种基于目标的检测位置：支持我们的两个提出我们的能力和面具特征的空间侦查，我们的3D特征设置和MLP-混音器检测头。

方法

我们由 Google 一下 AdaMixer 检测器的显着创新点，以简单的方法在这个细节上可以快速介绍我们的脉络。

人物角色的位置

现在把查询解耦变成两个一样，分别是内容（内容向量）和位置相对（位置向量），代表查询着的边框可以与位置解码我们一起，在每一个阶段，查询小区更新细化这两个参数的位置。，代表框长宽比直接的对数，联系参数的xyz我们的查询可以以类型化形式进行让特征所形成的3D特征空间。如上图所示，3D特征空间中的查询坐标由 xy 决定，生成自然生成我们的 3D 特征根据不同的空间大小进行偏移，再根据自己的特征组在 3D 特征的插值点的内容中，3D 特征对应点的插值的方法统一对应的特征这块学习地目标的位置和路线的变化是不需要任何大量网络的。

电影的内容

对于一个查询来说，捕获到的特征为形状，是通道为点的个数，通道数量，我们在LP- Mixer 的启发下提出了一系列的Mixer的通道和空间混合操作（混合查询）具体来说，我们的解码器用动态依赖于查询的权重沿两个维度（通道和空间）混合收集到的特征，采集的特征可能来自不同层级的特征图这样的能力混合了操作自然的解码器多工具原型的。

总结构

AdaMix 和解码器的总结构如上图，虽然看起来有点像，但是在上面的内容中，繁杂地在一个舞台上的操作是一致的，然后在一个舞台的再更新。

总的 AdaMixer 检测只由主要部分组成：它是主干网络，它是我们所提出的 AdaMixer 解码器，不需要额外的清洁器编码以及显式的多尺度模型网络。

结果

实验结果在当时投稿的时候还是比较精彩的，在12个纪元的训练条件下，我们的还有其他检测器（包括传统的基于查询的检测器），其中N为查询的数量，证明了我们的方法而且我们的12个纪元在8卡V100上实际训练的时间还是比较的，只要9个小时。

与下面的检测器相比，我们也有更好的表现，而且是表中不需要额外的跟命名器或基于特征网络的模型。

消融实验

我们做比较的消融实验来验证我们提出的实验模型的功效。在此一些有代表性的消融来进行讨论。

（一个影响我们的方法的位置）是对我们的性别模型的影响，不管是什么东西，不管是什么东西（loc.）解锁内容（续）的核心表都对我们的表达方式最终决定的。

表（b）是对我们提出的自适应混合的探索，动态通道混合（ACM）和动态空间混合（ASM）的顺序组合是最佳选择。

（c）我们的AdaMixer解码器的效果表（c）我们的AdaMixer解码器非常多的网络效果，我们发现我们的网络效果表比较好，我们预测不加的AdaMixer解码器自然可能是长时间的训练能力以及更多的网络类型需要更多的参数来收敛。

8 进一步探究了 3D 特征空间触发。注意到表 8 实验模型都没有 FPN 网络表，在这种情况下，RoIAlign 的演示文稿在我们的情后一个3D特征组的偏移量），只需在AP上表示5个C样，就可以用C表示。5555553D组的方向上学习设置的必要性。另外的结果是4个特征组的4个特征组，因为 C5 砍伐图的特征，可能只代表了这个特征类检测器轻量化可以涉及的方向吗？我们可以多探索。

总结

我们的一款具有不带尺寸的显示器、快速收敛且不兼容的显示器，以及显示器对显示器的显示器的简单电视结构能力，我们的显示器显示器的显示器具有简单的解码器，无需厚重的显示器编码器的多尺度提供有效的网络查询服务。