【速览】ICCV2019 | 基于特征范数适配的无监督领域自适应算法

学会“成果速览”系列文章旨在将图像图形领域会议期刊重要成果进行传播，通过短篇文章让读者用母语快速了解相关学术动态，欢迎关注和投稿~

◆ ◆ ◆ ◆

基于特征范数适配的无监督领域自适应算法

许瑞嘉、李冠彬、杨霁晗、林倞

ICCV 2019 最佳论文提名

撰稿人：李冠彬

推荐理事：林宙辰

原文标题：Larger Norm More Transferable: An Adaptive Feature Norm Approach for Unsupervised Domain Adaptation

论文代码：https://github.com/jihanyang/AFN

◆ ◆ ◆ ◆

引言

近年来，受益于海量人工标注的图像视频数据，深度神经网络算法被广泛应用于计算机视觉的各个领域并取得突破性的进展。然而，由某一特定领域标注数据训练得到的模型迁移到新的应用场景却经常展现出非常局限的泛化能力。因此，为了将某个领域或任务中学习到的知识或模式可靠地应用到数据分布不同但相关的领域或问题中，迁移学习算法应运而生并受到广泛关注。本文研究的无监督领域自适应问题旨在研究从一个带丰富类别标注的源域中学习到的分类模型可以可靠地迁移到另一个无标注的目标域中。在实际应用场景，例如自动驾驶领域，不同时间、天气、城市采集的数据往往存在较大的分布差异，给模型的泛化性能提出了更高的需求。

无监督领域自适应是机器学习的一个经典问题。文献[1]为大多数领域自适应的方法奠定了理论基础，它阐述了目标域的理论泛化误差上界由三个部分所约束：

源领域有标签样本分类的经验误差；
两个领域之间在某种给定度量指标下的统计距离；
一个只依赖于假设空间复杂度、样本规模和理想化分类误差的常数项。

对泛化上界优化的关注点大部分集中在如何降低两个领域间的统计距离。具体而言，现有绝大多数方法的核心思想是通过最小化源域的分类误差及两个域之间的某种特定的统计距离来引导模型学习到一种任务判别性强且领域不变的特征表达；常用的统计距离包括数据分布间的H距离[3]和HΔH距离[4]，最大平均差异（Maximum Mean Discrepancy: MMD）[5][6]等。

近年来，基于对抗训练的领域自适应算法逐渐成为了该领域的主导方法，这类方法通过引入判别器并基于对抗的训练，以混淆两个领域特征分布的方式最小化近似的领域偏差。例如RevGrad[3]算法引入一个基于H距离的二分类子网络，用于区分样本是来自于源领域还是目标域，并通过在对特征提取器进行参数更新时反转梯度的符号，达到对抗式对齐特征的目的。ADDA[7]使用两个特征提取器，分别提取源领域和目标域的特征，并通过同一个领域判别器，以基于GAN的非对称优化的方式达到混淆特征的目的，实现领域间特征的对齐。MCD算法[4]用最小最大的对抗式策略同时优化特征生成器和双分支的分类器达到缩小源域和目标域HΔH距离的目的。和基于特征层面的领域对齐方式不同，基于像素级生成式的领域自适应方法[8][9][10]采用基于图像到图像的转换技术有效提取低层次的领域漂移。

另一方面，标准的领域自适应方法假设源领域和目标域共享相同的标签空间，而部分领域自适应（Partial Domain Adaption）的问题设置假设目标域的标签空间是源领域标签空间的一个子集[11][12]，更贴近实际的应用。例如执行图像的分类任务时，基本都会先在ImageNet上进行预训练，但是我们实际任务往往简单的多，远远不到1000个类别，当我们考虑的图像样本和ImageNet中的图像不属于同一分布时，就是一个部分领域自适应的任务。现有标准的领域自适应方法直接应用在这个问题设定下，会受到较严重的负迁移的影响。由于这是一个新提出的子问题，相关方法并不多，最具代表性的是[11]尝试通过降低不相交标签空间部分的类别权重来减少负迁移造成的影响，同时增强相交标签空间部分对应样本间特征的迁移性，提高模型的性能。

在本课题的研究中，我们发现，虽然模型在不同领域之间迁移会导致性能急剧下降是一个被广泛认可的事实，但目前极少的研究关注于分析导致这一现象的潜在原因。已有的关于领域差异的度量可能难以精确刻画领域的偏移，而且在训练过程中显式地缩小这一差异难以保证模型在不同领域之间的鲁棒迁移。例如文献[13]验证了通过桥接两个领域之间的JS散度并不能提高目标任务的分类精度。

在本文中，我们从实验观察的角度揭示了领域迁移导致模型退化的可能原因，即目标领域样本相比源领域样本特征范数过小是导致其判别性能不稳定的原因。如图1所示，根据Source Only 模型进行实验的可视化结果，我们可以观察到目标域样本基本都挤在低范数区域(low-norm region)，因此极大降低了模型的分类性能；另一方面，模型压缩领域小范数提供的信息量更少（smaller-norm-less-informative）的假设指出范数更小特征在推断（inference）时提供的信息更少[14]。在无监督领域自适应问题的设置中，由于目标域缺乏监督信息，因此更容易产生低范数的特征。模型压缩的方法通过剪枝去掉不太重要的计算路径，而我们可以反其道而行之，通过自顶向下的方式施加一个损失函数，达到强制模型学到更多计算路径，提高其特征范数的目的，这也是本文算法的核心出发点。

图 1 数据集VisDA2017中源领域和目标域的样本在Source Only模型上的特征可视化

事实上，基于上述的特征可视化观察，我们可以得到两种猜想解释。

（1）特征范数非对齐假设：源域和目标域的领域漂移可能是由其特征范数期望不一致导致的；因此适配两个领域的特征范数均值到任意一个相同的数值都应该能带来相似的迁移增益。

（2）特征范数过小假设：领域漂移可能是由于目标领域中样本特征范数过小导致信息量太小导致的；基于这一假设，只要把目标域的特征拽离小范数区域而无需严格的范数对齐就应该能带来稳定的迁移增益。

基于上述两种猜想假设，我们提出了两种无参数的特征范数适配方法。基于特征范数非对齐假设，我们首先提出一种简单有效的统计距离衡量两个域之间的平均特征范数差异，进而设计一种硬适配方法（Hard AFN）来缩小两个领域的差距（通过严格限制两个域特征范数的期望到一个相同的常实数实现），实验结果表明特征范数强制对齐可以带来一定的迁移效果，但增大设置的常实数值可以带来性能的进一步提升。

基于此，我们进一步提出逐步适配方法（Stepwise AFN），试图以一种稳定的方式搜索到一个足够大的有效特征范数阈值，具体而言，通过逐步迭代的方式逐样本提升特征范数。特征范数逐步适配方法的有效性进一步揭示了域迁移成功的关键在于有效地提升目标域样本的特征范数到一个更大的值，而源域和目标域之间特征范数的严格对齐是非必须的。

前提知识

1. 无监督领域自适应问题描述

领域自适应问题涉及领域(Domain)和任务(Task)两个重要概念，领域由d维特征空间

和边缘概率分布P(x)组成，即

。给定领域

，任务

由类别空间

和预测模型

组成，即

。领域是构成任务的基本单元，每两个领域p和q能够构成两组迁移任务p→q和q→p。在领域自适应问题中，通常给定一个源领域

和一个目标域

，分别包含

和

个样本以及

和

个类别。源领域和目标域分别采样自不同但相似的数据分布p和q，它们共享标签空间。而无监督领域自适应问题考虑的是我们无法获得目标域标签的情况，即

。

无监督领域自适应存在两个子问题：标准领域自适应和部分领域自适应。标准领域自适应指的是源领域和目标域共享同一个标签空间，即

。而在部分领域自适应模式下，

，即属于

的类别和目标任务无关。标准的领域自适应算法简单应用于这一设置，通常会在

这个不相交的标签空间受到较大的负迁移的影响，严重影响分类精度。

2. 保持
范数的Dropout

Dropout是深度神经网络中一种被广泛使用的正则化技术，具体的操作方式为：给定d维的输入特征向量x，在训练阶段以概率p随机的选择元素

并设为0，采用的概率p服从伯努利分布

：

为了在评估阶段计算一个恒等函数，我们将Dropout的输出放大

倍，得到：

由于

和

是独立的，公式(2)隐式地在训练和测试阶段保持了输出的

范数：

观察公式(2)和(3)可以看出，我们默认使用的Dropout层实际上保持了

范数，而在接下来我们要介绍的特征范数适配方法中，由于采用的是

特征范数的适配，所以为了方便观察，我们需要将其改为保持

特征范数的方法。具体操作上，我们将Dropout的输出改为放大

倍并得到：

实际满足：

通过这种修改，在后续实验中就能直接的通过观察特征范数的取值而选择合适的超参数。

特征范数适配方法

1、
特征范数适配算法框架

图 2 特征范数适配方法框架图

我们提出的特征范数适配（AFN）方法的整体框架如图2所示。其中包括骨干网络G实现通用特征的提取，F为针对特定任务(task-specific)的分类器，包含l层，每层都是按FC-BN-ReLU-Dropout顺序构成的复合层。其中前 L-1层为瓶颈(bottleneck)网络。值得注意的是，我们在分类器中使用的Dropout是上述介绍的保持

范数的Dropout。在每次迭代中，我们对任务特定的特征应用特征范数适配方法，并结合源领域的分类损失作为最终优化目标。基于前述的特征可视化结果得到的两种不同假设，本文提出的AFN方法又包括特征范数硬适配(Hard AFN)和特征范数逐步适配(Stepwise AFN)两种不同的实现方式。对于特征范数硬适配方法，我们的优化目标将源领域和目标域的平均特征范数限制到同一个特征范数常量。而对于逐步适配的版本，我们将损失函数设置为激励每个样本在每次迭代能够逐步自增Δr特征范数的方式来实现。基于这两种不同的实现方式，源领域和目标域的样本都能够通过优化迭代远离低特征范数区域。我们进一步基于这两种模型探讨目标域的样本在无监督条件下的判别能力。

2、特征范数硬适配方法（Hard Adaptive Feature Norm）

特征范数硬适配方法直接设定了一个较大的目标

特征范数R，并计算源域和目标域的平均特征范数值与R之间的

距离。整体的优化目标如下：

其中，λ是一个权重因子，用来平衡分类损失和特征范数损失。

表示

范数的计算函数。

表示源领域分类损失，

计算

距离。

上述HAFN方法虽然简单但有效，实验结果可以证实通过适配两个领域的特征范数均值到一个相同的数值R能带来领域迁移增益。但是如果这个性能提升是由强制对齐的特征范数均值适配得到的，那么设置不同的R值应该得到相似的结果，同样设置一个相对小的目标特征范数值如R=1也应该能取得理想的结果。事实上，我们的实验结果可以证实这种设定确实能带来一定的效果，但是进一步的实验发现通过逐渐增大R的值，模型在目标域的分类性能还能得到进一步的提升。因此，一个很自然的想法就是通过设置足够大的R来测试是否匹配源领域和目标域的特征范数是必须的。但不幸的是，HAFN不能设置足够大的R，因为会使特征范数适配带来的梯度最后主导整个反向传播过程，导致梯度爆炸。

3、特征范数逐步适配方法（Stepwise Adaptive Feature Norm）

为了解决上述瓶颈，我们进一步提出了特征范数逐步适配方法（SAFN），以一种稳定的方式搜索到一个足够大的有效特征范数阈值。SAFN设定损失函数激励模型逐渐增大每个样本的特征范数，如下公式所示：

其中

。

和θ分别表示上一次迭代和本次迭代的模型参数。Δr表示控制每次迭代特征范数增长的残差常量。在每次迭代中，加入SAFN第二个损失项的目的为激励每个样本根据上一次迭代算出的特征范数自增Δr，而不是像HAFN显式设置一个最终特征范数阈值目标。因此，SAFN的优化过程会更加稳定且更容易平衡分类损失和特征范数适配损失，SAFN也可以免受梯度爆炸的困扰而逐步探索达到一个更大的特征范数值，并随之取得更好的实验性能。值得一提的是，SAFN并不像HAFN一样对于源领域和目标域的特征范数期望进行匹配，但可以通过限制最终特征范数的大小R来提前终止样本特征范数的自增，这个过程如以下所述：

然而，我们的实验结果发现利用公式（8）替换公式（9）中的第二项并没有产生本质的结果差异。实验结果可以表明域迁移成功的关键在于有效地提升目标域样本的特征范数到一个更大的值，而源域和目标域之间特征范数的严格对齐是非必须的（这符合“特征范数过小假设”）。

实验验证

表 1-4：不同的领域自适应算法在Office-Home, VisDA2017,ImageCLEF-DA,Office-31等四个数据集下的性能比较（标准领域自适应设置）

表格1-4展示了我们提出的HAFN和SAFN两种特征范数适配方法在Office-Home，VisDA2017，ImageCLEF-DA，Office-31四个数据集下普通领域自适应设置的性能比较。可以看出，我们提出的两种特征范数适配方法在各大公开数据集上都显著优于当前已有方法。其中特征范数逐步适配方法（SAFN）可以稳定地取得比特征范数硬适配方法（HAFN）更好的结果。值得一提的是，基于对抗学习的方法如DANN无法在较大的数据集如VisDA2017上取得较好的效果，然而基于特征范数适配（AFN）的方法对于大数据集更加鲁棒，并且不需要其它优化目标进行辅助。最后，AFN方法并不需要为网络增加额外的参数，相对于对抗学习、协同训练的方法而言，训练成本会更低，网络更轻量化，且实现更加简单。

表 5：不同的领域自适应算法在Office-Home的性能比较（部分领域自适应设置）

表格5验证了我们提出的两种不同的特征范数适配方法在部分领域自适应设置下，在Office-Home和VisDA2017数据集下的有效性。SAFN方法在Office-Home和VisDA2017两个数据集上较已有最好算法分别提升了11.5%和17.1%。这是由于AFN方法不需要尝试将两个领域的特征进行对齐，因此不会错误匹配不同类别间的特征分布。而对抗式的方法如DANN由于遭受严重的负迁移的影响，表现甚至比Source Only模型更差。PADA采用了寻找目标域和源领域不相交部分类别空间的方法来避免对齐整个源领域和目标域，但是该方法并不能完全消除负迁移，而且还需要对于数据集中的每一个子任务调节超参数，大大影响了模型的灵活性和通用性。我们的方法不需要显式地对齐特征空间，对抗负迁移也就更加鲁棒，且不需要引入新的超参数。

图3(a)展示了我们提出的SAFN在VisDA2017上性能随着无标注的目标域数据量的增加而逐步提升，这证明我们的方法是数据驱动的，而无标注的目标域数据相对而言易于获取，证明了该算法的实用性。图3(b)(c)分别展示了我们的HAFN和SAFN对超参数敏感性的分析。图3(d)证明了我们的SAFN方法的性能受特征维度的影响不大。

图4(a)，(b)分别是对Source Only方法和SAFN方法进行t-SNE特征降维可视化。我们可以观察到(a)中的目标域样本分布十分混乱，而(b)中对应的SAFN方法成功的将不同类别的目标域样本分隔开，可以更好的与相应类别的源领域样本进行匹配。

总结

我们展示了在无监督领域自适应问题中的一个新颖发现，揭示了模型从源域迁移到目标域导致性能退化的原因主要来源于其远小于源领域的特征范数。为此，我们展示了特征范数逐步适配方法，通过逐步迭代的方式逐样本提升特征范数至一个较大的值能带来很好的迁移效果。逐步适配方法相比特征范数硬适配方法的有效性进一步揭示了域迁移成功的关键在于有效地提升目标域样本的特征范数到一个更大的值，而源域和目标域之间特征范数的严格对齐是非必须的。值得指出的是本文提出的基于特征范数适配的领域自适应方法不会带来额外的网络参数，十分容易实现且性能稳定。除此之外，我们的方法成功地统一了普通领域自适应和部分领域自适应的计算，且基于特征范数适配的方法在对抗负迁移方面具有更强的鲁棒性。大量的实验结果验证了我们方法的有效性。

参考文献

[1] S. Ben-David, J. Blitzer, K. Crammer, A. Kulesza, F. Pereira, and J. W. Vaughan. A theory of learning from different domains. Machine learning, 79(1-2):151-175, 2010.

[2] S. Ben-David, T. Lu, T. Luu, and D. Pal. Impossibility theorems for domain adaptation. In International Conference on Artificial Intelligence and Statistics, pages 129-136, 2010.

[3] Y. Ganin and V. Lempitsky. Unsupervised domain adaptation by backpropagation. In International Conference on Machine Learning, pages 1180–1189, 2015.

[4] K. Saito, K.Watanabe, Y. Ushiku, and T. Harada. Maximum classifier discrepancy for unsupervised domain adaptation. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018.

[5] K. M. Borgwardt, A. Gretton, M. J. Rasch, H.-P. Kriegel, B. Scholkopf, and A. J. Smola. Integrating structured biological data by kernel maximum mean discrepancy. Bioinformatics, 22(14):e49–e57, 2006.

[6] E. Tzeng, J. Hoffman, N. Zhang, K. Saenko, and T. Darrell. Deep domain confusion: Maximizing for domain invariance. arXiv preprint arXiv:1412.3474, 2014.

[7] E. Tzeng, J. Hoffman, K. Saenko, and T. Darrell. Adversarial discriminative domain adaptation. In Computer Vision and Pattern Recognition (CVPR), volume 1, page 4, 2017.

[8] J. Hoffman, E. Tzeng, T. Park, J.-Y. Zhu, P. Isola, K. Saenko, A. Efros, and T. Darrell. Cycada: Cycle-consistent adversarial domain adaptation. In Proceedings of the 35th International Conference on Machine Learning, 2018.

[9] S. Sankaranarayanan, Y. Balaji, C. D. Castillo, and R. Chellappa. Generate to adapt: Aligning domains using generative adversarial networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 8503–8512, 2018.

[10] M.-Y. Liu, T. Breuel, and J. Kautz. Unsupervised image-to-image translation networks. In Advances in Neural Information Processing Systems, pages 700–708, 2017.

[11] Z. Cao, M. Long, J. Wang, and M. I. Jordan. Partial transfer learning with selective adversarial networks. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018.

[12] Z. Cao, L. Ma, M. Long, and J. Wang. Partial adversarial domain adaptation. In European Conference on Computer Vision, pages 139–155. Springer, 2018.

[13] R. Shu, H. H. Bui, H. Narui, and S. Ermon. A dirt-t approach to unsupervised domain adaptation. In Proc. 6th International Conference on Learning Representations, 2018.

[14] J. Ye, X. Lu, Z. Lin, and J. Z. Wang. Rethinking the smaller-norm-less-informative assumption in channel pruning of convolution layers. arXiv preprint arXiv:1802.00124, 2018.

往期精选

征文

第二十届全国图象图形学学术会议(NCIG2020)征文通知