智猩猩

Dropout的反面！小模型推理无损涨点的新训练方法NetAug

分类： AI技术

2022-04-22 18:21:11

Large Model vs Tiny Model

本文明确指出大模型过拟合，需要通过dropout等正则化技术和数据增强来提升精度；而小模型是欠拟合的，需要增强网络技术，正则化技术对小网络是有害的。

如上图所示ResNet50(大模型)正则化后，精度都有所提升，NetAug会掉点；而MobileNetV2-Tiny(小模型)正则化会掉点，NetAug会提升精度。

Formulation

标准的随机梯度下降公式为：

因为小模型的容量受限，比起大模型更容易陷入局部最优，最终导致不能得到最佳性能。为了提升小模型的精度，就需要引入额外的监督信号(比如KD和multi-task learning方法)。dropout方法鼓励模型的子集进行预测，而本文提出的NetAug则鼓励小模型作为一组大模型的子模型进行预测(这组大模型通过增强小模型的width构建的)。总的loss函数可以写成：

表示一个增强的大模型(包含需要的小模型，参数共享)，是缩放系数。

Constructing Augmented Models

如左图所示，构建一个最大的增强模型(包含需要的小模型，参数共享)，其他增强模型从最大增强模型中采样。这种参数共享构建supernet的方式，之前在one-shot NAS中非常流行，详细可以看我之前的文章：https://zhuanlan.zhihu.com/p/74985066。

如右图所示，NetAug通过调整width构建其他增强模型，比起通过调整depth构建增强模型，训练开销更小。构建增强模型引入augmentation factor r和diversity factor s两个超参数，假设我们需要的小模型其中一个卷积宽度是w，最大增强模型的卷积宽度就是rxw，s表示从w到rw宽度之间等间距采样s个增强模型卷积宽度。比如r=3，s=2，那么widths=[w, 2w, 3w]。

训练阶段，NetAug在每个step采样一个增强模型进行辅助训练。NetAug训练额外开销相比baseline增加了16.7%，推理额外开销为0。