CF-ViT：用于视觉Transformer的由粗到细的两阶段动态推理架构

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>CV微信技术交流群

作者：阿甘 | 已授权转载（源：知乎）编辑：CVer

https://zhuanlan.zhihu.com/p/586247306

此文章介绍刚被AAAI-2023会议接收的动态ViT论文 CF-ViT: A General Coarse-to-Fine Method for Vision Transformer。

论文：https://arxiv.org/abs/2203.03821

代码：https://github.com/ChenMnZ/CF-ViT

TL；DR (太长不看版)

Vision Transformers (ViTs)的核心操作是self-attention，而self-attention的计算复杂度和输入token数目的平方成正比，因此压缩ViT计算量最直接的思路就是减少推理时的token数目，也即减少图像划分的patch数目。论文通过两阶段自适应推理减少推理过程的token数目：第一阶段将图像划分为粗粒度(大尺寸)patch，目的是使用较少的计算量识别“简单”样本；第二阶段将第一阶段中信息量高的粗粒度patch进一步划分成细粒度(小尺寸)patch，目的是使用较少的计算量识别“困难”样本。论文还设计了全局注意力用于识别信息量高的粗粒度patch，以及特征复用机制用于增大两阶段推理的模型容量。在不影响Top-1 准确率的情况下，该方法在ImageNet上将LV-ViT-S的FLOPs降低53%， GPU上实测推理速度也加快了2倍。

1. Introduction (研究动机及简介)

近年来，Vision Transforms (ViTs)受到了学术界的广泛关注，被应用到各式各样的视觉任务中。ViT将图片切割成固定数目的patch，之后将每个patch线性映射成token，输入一系列堆叠的Transformer Block。其中，Transformer Block包含两个组件：Multi Head Self-Attention (MHSA) 和 Feed Forward Network (FFN)。假设图像被编码成N个D维 token，则Transformer Block的计算复杂度为：

如上式，即MHSA的计算复杂度和token数的平方成正比，FFN的计算复杂度和token数成正比。因此，一种简单的高效推理思路是通过降低推理时的token数目来对ViTs的计算量进行压缩。

那么问题来了，如何降低token数目呢？token对应的是图像中的patch，也即图像中的某个区域，减少token数目的本质在于挖掘图像的空间冗余性，以减少冗余区域的token编码数量。而图像的空间冗余性根据粒度，其实可以划分为两种：

1）图像之间的空间冗余性: 根据图像识别难度，可以将图像划分成简单图像和困难图像。如下图所示：对于简单图片，使用较低计算量就能够正确识别。对于困难图片，可能只有使用较高的计算量才能实现正确识别。

2）图像内部的空间冗余性：根据图像的语义信息，可以将图像划分成前景区域和背景区域，模型能否成功识别主要依赖于前景区域。因此，我们可以认为前景部位是重要区域，背景区域是不重要区域。假设计算量是可自适应调度的，显然，对于重要区域，应该分配更多的计算量；而对于不重要区域，则使用较少的计算量。

文中探索了上述两种空间冗余性在ViT上的特殊表现形式：

1）图像之间的空间冗余性表现为大部分图像编码成少量token即可分类成功。如表1所示，196个token计算量是49个token的4.18倍，但带来的性能提升只有6.6%，这表明，大部分图片较为简单，例如ImageNet-1k验证集中73.2%的图片用49个token编码就能成功分类。若是推理过程中对于简单图片使用较少token数量进行编码，则可以在保证性能的同时减少计算量。

2）图像内部的空间冗余性表现为只将重要的token输入模型，就可以获得较高准确率。我们采用预训练好的DeiT-S模型作为baseline，其将图像编码成196个token。如图4所示，我们使用attention map在输入端对token进行筛选：分别塞选出100个注意力值最大的token(绿色)和100个注意力值最小的token(红色)。可以发现，保留注意力值最大的100个token性能优势极为明显。其中，attention map通过先将图片输入模型前向推理一次获得。

2. Method (方法详述)

受上述所观察现象的启发，同时考虑图像之间的空间冗余性与图像内部的空间冗余性，论文提出了一个由粗到细的两阶段动态推理架构(Coarse-to-Fine Vision Transformer, CF-ViT)。

图5 Coarse-to-Fine Vision Transformer, CF-ViT

首先介绍CF-ViT的推理过程。如图5所示：

1）第一阶段是利用图像间空间冗余性的粗粒度推理，其目的是使用较少计算量获得”简单“图片的正确识别结果。具体做法是对图像使用粗粒度patch分割，分割后的结果编码成token输入ViT模型，以低成本获得粗粒度推理结果。紧接着判断粗粒度推理结果是否可信。此处follow此前early-exiting工作，采用预测置信度与一个预设阈值进行比较。若预测置信度大于阈值，则认为结果可信，结束推理；否则认为结果不可信，进入第二阶段推理。

2）第二阶段是利用图像内空间冗余性的细粒度推理，其目的是使用较少计算量获得”困难“图片的正确识别结果。具体做法是识别图像中重要的粗粒度patch，然后将每一个重要的粗粒度patch进行进一步的细粒度切割，获取对应的四个细粒度patch。最后将新的patch分割结果编码成token输入ViT模型以获得细粒度推理结果。

值得注意的是，两个阶段中用到的ViT模型是共享参数的，因此减少了多阶段推理的参数负担。同时，为了能够更好的协同两个推理阶段，论文设计了两个协同模块，以下进行简单介绍，详见paper：

1）第一个模块是重要区域识别（Informative Region Identification）, 其主要通过统计全局类注意力图来衡量每一个粗粒度patch的重要性，使得第二阶段可以轻量化无负担的筛选图像中的重要区域，然后进一步进行细粒度切割。

2）第二个模块是特征复用（Feature Reuse），其将第一阶段提取到的特征融合进第二阶段的推理过程。具体做法是对第一阶段提取到的特征进行线性变换和维度对齐，然后直接和第二阶段的图像编码相加，以此实现跨粒度特征注入，从而进一步提高第二阶段的模型容量。

在训练时，我们使用真实标签 y 监督细粒度推理结果p，使用细粒度推理结果 pf 监督粗粒度推理结果 pc：

3. Experiments (实验结果)

实验中，论文基于DeiT-S和LV-ViT-S测试了所提出的方法。如表2所示，在不影响模型准确率的前提下，CF-ViT分别分别将DeiT-S与LV-ViT-S的计算量降低61%和53%。值得注意的是，n = 1 表示所有的样本都会输入细粒度推理阶段，此种情形下CF-ViT分别将DeiT-S和LV-ViT-S的Top-1准确率提升1.0%和0.3%，且使用更少的计算量。同时，我们也测试了CF-ViT在ImageNet上的实际推理速度：基于Nvidia A100 GPU，batch size=1024，CF-ViT可以显著提高推理速度。

表3展示了CF-ViT和只利用图像内部空间冗余性的token剪枝方法的对比结果。

图5展示了CF-ViT和现有只利用图像间空间冗余性的early-exiting方法的对比结果。值得注意的是，CF-ViT不仅性能优于DVT，且得益于两个推理阶段共享模型参数，其参数量仅为DVT的1/3。

图6展示了在粗粒度推理阶段被正确分类和在细粒度推理阶段被正确分类的样本，其中细粒度推理阶段没有灰色表示的是模型识别出的重要区域。可以发现，在第一阶段就被正确识别的往往是”简单“样本，其特征是目标物体较为显著，背景简单；而在第二阶段才被正确识别的往往是”困难“样本，目标物体较小，且背景较为杂乱。同时，可以发现所提出的重要区域识别模块往往能够成功定位到目标物体，符合预期。

4. Conclusion (结语)

论文对ViT中存在的空间冗余性进行探究，将其划分为图像间空间冗余性与图像内部空间冗余性。此前的方法通常只考虑两种空间冗余性的一种，而此论文提出一个由粗到细的两阶段自适应推理结构，对两种类型的空间冗余性同时进行利用，实现了计算量与准确率更好的平衡。

以上即CF-ViT的简要介绍，更多细节可参见原论文。

点击进入—> CV 微信技术交流群

CVPR/ECCV 2022论文和代码下载

后台回复：CVPR2022，即可下载CVPR 2022论文和代码开源的论文合集

后台回复：ECCV2022，即可下载ECCV 2022论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立

扫描下方二维码，或者添加微信：CVer222，即可添加CVer小助手微信，便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。

一定要备注：研究方向+地点+学校/公司+昵称（如目标检测或者Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer222，进交流群

CVer学术交流群（知识星球）来了！想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料，欢迎扫描下方二维码，加入CVer学术交流群，已汇集数千人！

▲扫码进群

▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看

继续阅读

阅读原文

CF-ViT：用于视觉Transformer的由粗到细的两阶段动态推理架构 | AAAI 2023

TL；DR (太长不看版)

1. Introduction (研究动机及简介)

2. Method (方法详述)

3. Experiments (实验结果)

4. Conclusion (结语)