点击上方“CVer”,选择加"星标"置顶
重磅干货,第一时间送达
本文转载自:AIWalker
IC Networks: Remodeling the Basic Unit for Convolutional Neural Networks
论文:https://arxiv.org/abs/2102.03495
本文是南京大学的研究员针对CNN的基础模块进行的一次重建模,它将物理领域的弹性碰撞模型引入到卷积中,进一步提升的卷积过程的非线性能力,进而提升CNN的性能。最后从ImageNet分类与VOC检测任务上进行了验证,相比基线ResNet,所提IC-ResNet可得到不同程度的性能提升。

Abstract

CNN已成为计算机视觉领域主流方案,现有CNN往往采用堆叠特定类型基础单元构成,并通过提升深度与宽度取得更好的性能,同时设计更优秀的基础单元也是一个非常重要的研究方向。
受启发于物理中的弹性碰撞模型,本文提出了一种广义结构,它可以集成现有CNN并提升性能,我们将其称之为Inter-layer Collision(IC)结构。相比传统卷积结构,IC引入了非线性与特征重校正,它可以取得更细粒度的特征。
此外,本文还提出一种称之为weak logit distillation的训练方法,通过从预训练模型中提取知识加速IC网络的训练。在ImageNet数据集上,集成ResNet50的IC架构将top1误差从22.38%降低到了21.75%,取得了与ResNet100相同的性能,同时只需近一半的计算量。

Method

接下来,我们将从三个角度对本文所提方案进行介绍。首先,我们将介绍IC结构是如何工作并与CNN相结合的;然后介绍一下所提WLD优化技术;最后分析IC结构在计算复杂度方面的影响。

Inter-layer

上图给出了IC结构的示意图,它是受启发于物理中的弹性碰撞模型启发得到:两个目标的速度经过碰撞后分别变为。在这里我们将视作可学习权值,并进行某些数学意义上的调整。
MP神经元是最常用的一种神经元模型,它可以表示为,即线性变换+非线性激活的组合。为更好的利用神经元模型的非线性表达能力,我们提出了一种新的神经元模型,描述如下:
在上述定义的基础上,我们对其进行向量化得到如下:
那么如何将上述弹性碰撞模型转换成CNN形式呢?假设标准卷积可以描述为:
其中为输出特征,.表示滤波器,且卷积权值。为将卷积与前述IC核()融合,转换成如下形式:
其中1表示与同尺寸值为1的张量。注意到输入特征X可能包含上百通道数,会造成通道间特征同比例混合,为区别不同特征,这里采用组卷积技巧:
注:表示depthwise卷积。相比常规卷积,该结构具有这样两个优势:
  • 可以提供更多线性模式,有助于增强卷积的表达能力;
  • 包含某些low-level特征,有助于更快的学习high-level特征。
上述IC层可以轻易的嵌入到现有CNN架构中,这里我们采用ResNet作为蓝本进行嵌入,ResNet18与ResNet34的基础模块包含两个卷积,而更深的ResNet则由Bottlenech构成,Bottleneck由构成。另外注意到当卷积核尺寸为时,,因此我们仅对卷积进行替换,将所得ResNet称之为IC-ResNet。

Weak Learning Distillation

为更好的理解IC层为何可以捕获更细粒度特征,我们采用Grad-CAM进行了可视化,结果见下图。可以看到:IC模型更聚焦于与目标相关的区域。更重要的是:IC网络的特征与基础网网络的特征具有某些相似性。
受启发于上述相似性,我们提出采用预训练基础模型的知识引导IC网络的训练。假设基础网络B的预训练参数为,我们的是训练IC-B网络以获得更好的性能。对IC层作如下定义:
注:源自预训练模型,而则随机初始化。
为进一步利用B的知识,我们采用了类似知识蒸馏的方式:采用B作为老师模型,IC-B作为学生模型。知识蒸馏损失定义如下:
完整的损失函数定义为交叉熵损失与蒸馏损失的组合:
其中分别表示均衡因子与gap容差。

Parameters&Comlexity

对于标准卷积而言,其参数量为;而在IC层中,其参数量为标准卷积参数量+卷积参数量。故参数量额外增加.
IC层添加了额外的depthwise卷积与卷积,其增加的计算量月为.

Experiments

为验证所提方案的有效性,我们在ImageNet数据集上进行了验证,基线模型为ResNet。
image-20210209203419752
上表给出了ResNet18、ResNet34、ResNet50改造前后的性能对比。从中可以看到:IC-ResNet18与IC-ResNet34可以得到显著的性能提升,分别为1.19%和1.03%;在ResNet50方面,由于仅仅替换了卷积,其性能提升相对较少,但仍可以得到0.95%的top1精度提升。
image-20210209203907201
上表给出了VOC数据集上目标检测性能对比。可以看到:IC-ResNet50仍可取得比ResNet50更好的性能,性能提升在1.0%附近。
全文到此结束,更多消融实验与分析建议各位同学查看原文。
后台回复:ICNet,即可下载上述论文
点击下方卡片并关注,了解CV最新动态
CV资源下载
后台回复:CVPR2020,即可下载代码开源的论文合集
后台回复:ECCV2020,即可下载代码开源的论文合集
后台回复:YOLO,即可下载YOLOv4论文和代码
后台回复:Transformer综述,即可下载两个最新的视觉Transformer综述PDF,肝起来!
重磅!CVer-细分垂直交流群成立
扫码添加CVer助手,可申请加入CVer-细分垂直方向 微信交流群,可申请加入CVer大群,细分方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、Transformer、PyTorch和TensorFlow等群。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测+上海+上交+卡卡),根据格式备注,才能通过且邀请进群
▲长按加微信群
▲点击上方卡片,关注CVer公众号
整理不易,请给CVer点赞和在看
继续阅读
阅读原文