KDD 2022 | 如何正使用数据增强提高模型鲁棒性？

©PaperWeekly 原创 · 作者 | 罗昊京及其团队

研究方向 | 量化金融、资产定价、投资理论

数据增强作为机器学习中最基本的方法与技巧之一，早已被广泛应用于机器学习的各个方面，数据增强的使用通常配合着一致性损失函数的正则优化。数据增强和正则优化多种多样，这篇文章致力回答一个非常简单但却及其重要的问题：这么多正则优化，究竟那个是最有效，最通用的呢？

论文标题：

Toward Learning Robust and Invariant Representations with Alignment Regularization and Data Augmentation

收录会议：

KDD 2022

论文链接：

https://arxiv.org/abs/2206.01909

Introduction

数据增强在机器学习中屡见不鲜，而且早已成为了一个提高模型准确率的基准方法被应用于各个场景中。数据少的时候我们需要使用数据增强来增加数据量从而达到防止过拟合的效果，而数据多的时候也可以靠数据增强来增加数据的多样性，从而进一步提高预测效果，顺便还能提高在训练数据分布外的模型鲁棒性等。数据增强的方式多种多样，比如仅仅在图像上，就已经有了翻转，旋转等等近数十种数据增强的方法。

伴随着数据增强的普及，另一个很有趣的问题就是如何利用这些生成的数据去训练模型。把这些新添加的数据和原有的数据放到一起进行训练显然是最直接的方法，然而却不见得是最有效的方法。

更加有效的方法可能是将原有数据和生成出来的数据一对一对地放进模型中训练，这样在训练的过程中还可以利用正则化来要求模型去在这样的一对数据中学到一些共性的知识。

在监督学习中，这种正则函数通常叫做一致性损失函数（图2）。几年来，随着对模型鲁棒性和可信赖程度的重视的提高，此类一致性的损失函数或者正则约束也被大量的用来提高模型的各种鲁棒性。

▲ 数据增强配合consistency loss早已不是新闻，这篇文章主要关注在这么多实现中，哪个最好用

这种正则约束，除了图中列举这种之外，还可以太多种，比如这篇文章的作者指出，这种一致性损失函数的设计原理大概有三个核心的问题：

该方法将会应用在什么样的任务上：无论是关于图像还是文本的研究，无论是关于准确率还是鲁棒性的研究，似乎都可以找到利用此种正则约束增加模型效果的例子。
正则约束应用在模型的哪一层上：是最后一层，倒数第二层，中间的某一层，还是索性每一层都加上。
该正则约束具体是哪种函数：是简单的欧氏距离，某种 divergence，consine similarity，还是更复杂的某些函数。

作者坦言，这三种角度的组合叠加，也许会出现无穷无尽的 paper（创新点这不就来了！）

在同一个框架下的具体的方法出现的多了，那就自然会有一个问题：每个方法在不同的应用上，甚至相同的应用中不同的数据集上，或者仅仅是不同的模型参数调整策略下，表现得优劣不一，那么有没有哪个方法能够最优，或者至少是最通用，最靠谱的呢？换句话说，面对这么多方法，如果我要去搞一个新的应用，那我应该最先用哪个方法，而不是去全部方法都试一圈呢？

今天就介绍一篇今年 KDD 的文章。这篇文章主要就是要回答上面这个问题：这么多一致性的损失函数，哪个最靠谱？

Method

这篇文章主要从实验和理论两个方向上探索这个问题。在这里我们就主要介绍一下实验的部分。为了提供实验方向上的支持，这篇文章探究了 8 种方法在三个评判标准上的表现。这三个评判标准分别是模型的准确率，鲁棒性（这里采用了对抗攻击里面的标准定义，即在数据受到一定程度变换下模型的最差准确率），以及一个这篇文章新介绍的不变性（invariance）的标准。

这个不变性大概就是说在数据在数据增强过程中受到不同程度的变化的时候，模型学习到的表征向量是不是并不会随着数据的变化而变化。我这是一个比准确率和鲁棒性（最差状况下的准确率）更加严格的尺度，毕竟这两个尺度都是在某种意义上检查模型的预测是否正确，而不是很在乎判断模型预测正确的原因是什么。

▲ 作者使用的标准的准确率的定义

▲ 作者使用的鲁棒性的定义，在对抗攻击的防御中的标准定义

▲ 作者定义的不变性（invariance）,大概可以理解成一个数据在允许的各种变换中产生的表征向量最大距离

▲ 不过尽管定义为上面的公式，具体测试的时候用的是一种 K 近邻的思想，大致的意思是说如果模型真的对各种变换有 invariance，那么对于一个数据的在这个模型中产生的表征向量的最近的邻居应该同样是这个数据经过其他的变换之后在这个模型中的表征向量。

在这三种评判尺度下，作者测试了 8 种不同的关于一致性的正则优化。

▲ 作者测试的8种方法

上图的字母代表的方法如下：

B：不使用数据增强
V：把使用数据增强后增加的数据直接混到原有数据中
L：L1 norm 距离
S：欧氏距离
C：consine similarity
K：KL divergence
W：Wasserstein metric
D：用一个 classifier 代替这种距离，通过优化这个 classifier 学习到一种距离公式（有点类似于 GAN 中的 discriminator，或者 DANN 中的 domain classifier）

其中很有趣的一点是，作者认为 D 所代表的方法虽然还没有被人发表在关于一致性的正则优化的类似文章里，但估计早晚会被写成文章发出来，那要不就在这先一起测了吧。

总之测完了之后，作者觉得最好的是最朴素的欧式几何距离平方。

另外作者还为这个最朴素的方法提供了一些理论支撑。

下面的结论是作者提供的理论支撑，主要的结论就是把鲁棒性和不变性放在了同一个 bound 中。结论大概是说用最简单的正则化约束就能将错误率的范围确定好。

▲ 作者提供的理论支撑

Experiments

作者在这篇文章中声称达到了 3 个 SOTA 效果，在鲁棒图像分类的三个不同的分支里，在每个分支领域分别与一套在这个领域内的 SOTA 的方法比较，而且从比较的结果来看，本文的方法表现还挺好。

▲ 本文提出的方法同时比过了鲁棒性研究的不同任务中的各自的SOTA方法，图中展示的是本文的方法在旋转的图像分类中达到了SOTA的结果

我觉得这篇文章很有趣的一点就是一个如此简单的方法，居然可以在三个不同的领域里 beat 各自领域的 SOTA 方法。

Conclusion

这篇文章主要针对在使用数据增强时通常会遇到的一致损失函数浩如烟海的选择做了针对分析，并且致力于研究哪种一致损失函数最方便使用。文章发现最朴素的方法居然是最通用的。也同时为了鼓励大家使用而包装一个 package，这样使得大家可以用几行代码使用这个方法。

▲ 文章附带的 package 代码，地址在（https://github.com/jyanln/AlignReg）

我觉得文章带来的启发：

对于鲁棒性的研究，作者提出的 invariance（模型究竟是不是用正确的理由分类正确）可能会对未来的相关研究提出新思路
对于需要发论文的小伙伴，上文提到的三种角度的组合叠加可能真的是一个无限论文大法。有毕业需求却苦无创新点的小伙伴可以试试（具体在这篇文章的 related work 章节）
一个方法，三套 SOTA，略显震撼。也许值得在更多的应用中尝试。

关于作者

本文作者为罗昊京及其团队，研究方向为量化金融、资产定价、投资理论。