ICLR 2024 | 冻结住的CLIP仍可作为教师模型！港大提出全新开集动作识别模型

©作者 | 虎子哥

单位 | 香港大学

论文标题：

FROSTER: Frozen CLIP is A Strong Teacher for Open-Vocabulary Action Recognition

论文链接：

https://arxiv.org/pdf/2402.03241

代码链接：

https://github.com/Visual-AI/FROSTER

背景介绍

本文的研究课题是开集动作识别（open-vocabulary action recognition），具体来说就是测试集中的视频动作类别与训练集动作类别基本没有重叠或重叠程度很小，因此这需要模型具备较高的泛化性能。目前视频领域主流的做法是基于图像-文本对预训练的模型（主要是 CLIP）先在视频数据集上进行 fine-tuning，然后再进行测试集的验证。

通过实验探索，我们发现：尽管 fine-tuning 可以让CLIP具备不错的视频特征提取的能力，但这也会让它失去大规模预训练所得到的泛化性能。具体的表现就是，那些在闭集（closed-set）场景下优秀的视频分类器们，一到了开集场景下实验性能便大大缩水，甚至不如原先的预训练 CLIP 模型了。因此如何让视频模型在 fine-tuning 的同时还能保持住预训练的知识，成为了本文的研究重点。

问题探究

我们首先尝试了一组在闭集场景下表现优异的 CLIP-based 的视频模型：Action CLIP [1] , AIM ST-Adapter [2] 以及 ST-Adapter [3]。具体的实验设置为：首先将模型在 Kinetics-400 上进行 fine-tuning，然后在 UCF-101，HMDB-51 以及 Kinetics-600 数据集上分别进行了测试。

需要特别注意的是，针对 Kinetics-600 数据集，我们将验证集中与 Kinetics-400 相同的类别剔除，以保证开集验证的可靠性。实验结果如下图 1 所示。

▲ 图1. 跨数据集性能探究

不难发现，在 UCF-101 与 HMDB-51 数据集上，fine-tune 模型的性能比 Frozen CLIP 更强，但是在 Kinetics-600 数据集上，fine-tune 模型的实验性能却比 frozen CLIP 要更弱。这种不一致的泛化性表现引起了我们的好奇心，因此我们进一步地去分析训练集（Kinetics-400）与各个测试集（UCF-101，HMDB-51 和 Kinetics-600）之间的类别相似性关系。

具体来说，我们用 CLIP 的 text encoder 提取不同数据集的各个类别的文本特征，然后利用余弦相似度进行类别相似性的度量。图 1 中，我们用小括号中的数字来表示数据集类别的相似度，如：UCF-101（0.805）。

我们注意到，在测试数据与训练数据具备更高相似度的数据集上（UCF-101 和 HMDB-51），fine-tune 模型相较 Frozen CLIP 的性能表现更加优异。反之，在 Kinetics-600 上，fine-tune 模型的性能则更弱。

针对这个现象，一个可能的解释是：在与训练数据更相似的测试类别上，模型通过 fine-tuning 学习到的知识可有效地被用作识别，因此性能更好。而在与训练数据不那么相似的测试类别上，模型需要更多地依赖预训练的泛化性知识，但这些知识已经在 fine-tune 的过程中被逐渐抹去了（典型的灾难遗忘问题（catastrophic forgetting issue）），因此 fine-tune 模型性能更差。

受这些实验现象的启发，我们认为一个基于 CLIP 的开集动作识别模型应该具备以下特点：

1. 由于 CLIP 预训练是没有使用视频数据集的，因此模型需要学习视频域的相关知识（video-specific），用于弥补 CLIP 在时域建模方面的不足。

2. 模型需要能保持住预训练 CLIP 的能力，这对于泛化性能力的保持很重要。

为了验证以上猜想，我们直接将 fine-tune 模型和 frozen clip 的结果进行相加后平均输出。如图 1 所示，可以发现 ensemble 的所有模型在三个数据集上的性能都获得了较大程度的提升，这有效地验证了我们的假设。但是直接采用 ensemble 的方式，计算量和参数量都将会成倍地增加。

方案设计

为了解决以上问题，如图 2 所示，我们提出了一种新的结构 FROSTER 用来同时实现以上两个目标：

针对第一点（时域建模），我们直接采用 cross-entropy loss 对 fine-tune 模型进行监督。

针对第二点（泛化性特征保持），我们将 frozen clip 作为 teacher 模型对 fine-tune 模型的特征进行蒸馏，借此希望预训练的能力能够得到很好地保持。蒸馏过程类似于一个正则化项，确保 fine-tune 特征不会偏离 frozen clip 的特征太远。因为有两个不同的目标，我们需要在它们之间平衡特征学习。

▲ 图2. 模型结构示意图

▲ 图3. 残差特征蒸馏

以冻结的 CLIP 模型作为教师模型，实现基于特征的蒸馏有两种常见的方法，如图所示 (a) 和 (b)。如图 (a) 所示，由于 fine-tune 模型和 frozen CLIP 输出特征的维度保持不变，我们可以直接在它们之间进行特征蒸馏，无需进行特征投影。然而，这种监督要求 fine-tune 特征保持与预训练特征相同，这限制了 fine-tune 特征学习视频知识的能力。

另一种可能的方法（如图 (b) 所示）是应用一个投影器，将 fine-tune 特征从学生空间映射到教师空间。这可以放宽对 fine-tune 特征的约束，以便更好地拟合视频数据。然而，在这种条件下，蒸馏 loss 对 fine-tune 特征的约束可能过于宽松，从而限制了其泛化能力。因此，我们需要在上述两种方法之间找到一个折中方案，考虑到两个学习目标。

受到 ResNet 残差设计的启发，我们提出了一个改进的残差网络，用于在进行蒸馏时平衡两个学习目标。这种设计背后的直觉是允许 fine-tune 特征有效地接受 frozen clip 的监督，同时也保持对视频特征的有效学习。如图 (c) 所示，我们在特征上应用一个改进的残差网络，通过两层 MLP 投影器和恒等映射来转换其表示。

▲ 残差特征映射

1. 由于转换中存在恒等映射，泛化目标可以直接指导的泛化学习，这与图(a)类似。但不同的是，给定投影项，我们不强制与相同，这使得更灵活地拟合视频数据。

2. 是平衡两个目标学习中的重要因素。如果我们将它设置为一个较小的数值，学习到的嵌入空间将在很大程度上受到教师模型的约束，否则可能会过度拟合视频数据，损害泛化能力。在实验中，我们发现将设置为相对较小的数值（例如，0.1）比大数值时能带来更好的性能。这一现象表明，预训练的 CLIP 已经具有强大的表示能力，因此我们只需要稍微调整它，以便从图像转移到视频。

3. 为确保从预训练状态开始学习，我们将第二个全连接层的参数初始化为零。因此，在微调开始时，仅包含，并逐渐得到更新。

总的损失函数由两个部分组成：交叉墒 loss 和蒸馏 loss：

▲ 损失函数构成

实验结果

我们总的在两个实验设置下进行实验：base-to-novel 和 cross-dataset。

Base-to-novel 是将每个数据集的类别分成两个不重叠的部分，完成在训练集类别上进行 16-shot 的训练后，在测试集上进行测试。实验数据集总共包含 K-400，HMDB-51，UCF-101 和 SSv2。

Cross-dataset 是在 K-400 数据集上进行训练，然后在 HMDB-51，UCF-101 和 K-600 上进行测试。

下表为模型在 base-to-novel 和 cross-dataset 两个场景下的实验精度，FROSTER 均达到了最佳。

▲ Base-to-novel 场景

▲ Cross-dataset 场景

同时，FROSTER 还可以与不同的模型结构结合到一起，都能有效地提升实验结果。

▲ FROSTER与不同模型结构结合

▲ 不同蒸馏方式的影响

▲ 可视化对比：我们的模型能够更多的关注到和动作类别有关的区域

总结

本文针对开集动作识别任务提出了一种的新的模型结构，用来同时实现视频特征和泛化性的学习。我们在两种场景下都达到了最优的识别性能。开集动作识别是一个较新的领域，目前还有很多可以探究的问题，希望社区的同行们多多关注！

参考文献

[1] Mengmeng Wang, Jiazheng Xing, and Yong Liu. Actionclip: A new paradigm for video action recognition. Arxiv e-prints, 2021.

[2] Taojiannan Yang, Yi Zhu, Yusheng Xie, Aston Zhang, Chen Chen, and Mu Li. Aim: Adapting image models for efficient video action recognition. Arxiv e-prints, 2023.

[3] Junting Pan, Ziyi Lin, Xiatian Zhu, Jing Shao, and Hongsheng Li. St-adapter: Parameter-efficient image-to-video transfer learning. In NeurIPS, 2022.

更多阅读