©PaperWeekly 原创 · 作者 | 
张一帆

学校 | 中科院自动化所博士生
研究方向 | 计算机视觉
本文用三篇论文稍微普及和解读一下最近 Lottery Ticket Hypothesis 在 CV, NLP, OOD 上的应用。
什么是彩票假设?
彩票假设的核心就是如下一句话:
A randomly-initialized, dense neural network contains a subnetwork that is initialized such that — when trained in isolation — it can match the test accuracy of the original network after training for at most the same number of iterations
简单理解一下就是我们就是在找一个子网络,通过修剪他的权重我们可以得到匹配整个网络的性能。所谓的子网络就是原网络的一部分权重被设置为 0 剩下的那些权重。为了识别中奖彩票,该算法在每次迭代中使用由最小值权值的位置得到的掩码对网络进行修剪。其余未修剪的权重组成中奖彩票,可用于下游任务。这个过程可以用几个步骤来描述:
  1. 均匀的初始化一个网络
  2. 保存原有的权重
  3. 训练网络
  4. 确定最小权重的位置,创建一个剪枝掩码(pruning mask)
  5. 使用初始权值重新初始化网络,并应用步骤 4 中的掩码进行修剪
步骤 3-5 可以迭代地重复以修剪更高比例的权重,直到我们对大小感到满意(或者直到性能的下降变得明显)。彩票假设表明,在图像识别任务中网络可以被修剪高达 90% 同时保持相对相似的性能。
彩票假设用于BERT fine-tune
论文标题:
The Lottery Ticket Hypothesis for Pre-trained BERT Networks
收录会议:
NeurIPS 2020
论文链接:
https://arxiv.org/abs/2007.12223
代码链接:
https://github.com/VITA-Group/BERT-Tickets
本文来定义两种不同的子网络
  1. matching network:一个在特定任务上比原网络不差的子网络。
  2. universal subnetwork:一个在多个任务上比原网络性能都不差的子网络,也就是说有很好的迁移能力。
本文的目标在于寻找 matching 和 universal subnetwork,最重要的是寻找 universal subnetwork。本文的核心贡献在于:
  1. 本文使用非结构化的剪枝方法,在稀疏度 的 BERT 模型之间发现了传统 GLUE 和 SQuAD 任务上的 matching network。
  2. 和以往的工作不同,本文发现上述 subnetwork 出现在预训练的初始化阶段,而不是经过一段时间训练之后。和以往的工作一样的是,这些子网络比随机剪枝和随机重新初始化的子网络好很多。
  3. 在大多数下游任务中,上述的子网络不能迁移到其他任务。也就是说这个稀疏模式是任务特定的。
  4. 稀疏度 的模型使用 MLM 进行训练可以迁移到其他任务并保持准确度。
总的来说本文是一个实验性的文章,来看一看他们的实验大概是如何的
Setting:本文使用一个 BERT 模型参数为 ,一个任务特定的分类层参数为 ,模型的输出记作 。每个数据集的训练样本以及一些超参数总结如下:
接下来我们将 matching network 公式化描述一下。
对一个网络 ,子网络可以记作 ,这里的 是一个剪枝掩码 ( 是逐元素相乘)。记 是针对任务 ,训练到第 步的训练算法(AdamW),这里的网络被训练成了 。 是 BERT 预训练得到的参数,记 是评估模型 在任务 上性能的指标。
matching subnetwork:一个子网络被称为 matching 的,当且仅当我们使用算法 训练 得到的结果不弱于 ,也即:
winning ticket:一个子网络被称为算法 的 winning ticket 如果他是对于 的 matching network 而且 。
universal subnetwork: 对于任务 是 universal 的当他对于每个 在任务特定的配置 下都是 matching network。
整体学习的算法如下:
使用该算法找到的稀疏子网络性能如下:
上表中 表示随机剪枝, 表示随即权重, 表示预训练权重随机打乱后的权重。
本文最核心的一个实验如下所示:
这个表描述了不同 task 之间进行迁移时的性能变化,比如第一行第二列表示了从 MNLI 得到的稀疏度为 70 的子网络在 QQP 上进行训练得到的性能(89.2)的高分,蓝色表示这是一个 winning ticket。
彩票假设用于OOD泛化
论文标题:
Can Subnetwork Structure be the Key to Out-of-Distribution Generalization?
收录会议:
ICML 2021
论文链接:
https://arxiv.org/abs/2106.02890
本文基于彩票假设,即使我们整体的模型是有偏的(偏向背景,上下文而不是物体本身),这个网络中也存在一些子网络他们是无偏的,可以实现更好的 OOD 性能。文中提供了模块风险最小化 MRM 来寻找这些“彩票”。
MRM 算法理解起来也并不困难:
  1. 给定数据,完整的网络,子网络的 logits ,logit 是一个用于产生 mask 的随机分布,比如网络第 层有 个参数,那么 。该层的 mask 通过从 中采样得到,mask 将完整网络转化为子网络(=0 即忽略第 层的第 个参数);
  2. 我们对模型进行初始化然后使用 ERM 的目标进行训练 个 step;
  3. 我们从整个网络中采样子网络,结合交叉熵和稀疏正则化作为损失函数来学习有效的子网结构;
  4. 最后只需要简单地只使用所得到的子网中的权值重新进行训练,并将其他权值固定为零。
文章最大的亮点就在于 MRM 和目前主流的研究方向(修改目标函数)是正交的,无论目标函数是什么,MRM 都能找到这么些泛化能力更强的子网络。
彩票假设用于视觉模型预训练
论文标题:
The Lottery Tickets Hypothesis for Supervised and Self-supervised Pre-training in Computer Vision Models
收录会议:
CVPR 2021
论文链接:
https://arxiv.org/abs/2012.06908
代码链接:
https://github.com/VITA-Group/CV_LTH_Pre-training
在 imagenet 进行预训练的特征提取器在 CV 中非常的常见,这种预训练方式对下游的视觉分类任务,few-shot learning 以及检测,分割等任务都有很大帮助。最近自监督的预训练模型取得了非常不错的效果。SimCLRv2 显示深度和宽度都足够大的模型是预训练和微调成功的重要组成部分,标签越少,越需要大模型。大模型预训练的额外成本可以通过转移到许多下游任务来摊销。
然而,这种预先训练过的模型的爆炸式大小甚至可能使微调计算要求很高。本文就提出了这样一个问题:“我们能否在不损害其下游任务迁移性的情况下,大量地削减预训练模型的复杂性”。这和模型压缩看起来好像有点类似,但是其实完全不一样。模型压缩是在模型训练好之后在同一个数据集上进行压缩,而本文的目标和前几篇论文一致,是想找到一个更小的初始化的预训练模型,同时保证他在各个任务上的迁移性。本文和第一篇文章相似度很高,formulation 基本一样,我们主要看看本文的 setting 和得到的一些结论。
下表是各种预训练模型以及下游任务的 setting:下面五点是本文得到的结论:
  1. 对于 ImageNet pretraining,simCLR,MoCo 三个预训练范式,使用迭代的 IMP 算法本文识别出了稀疏度达到 67.23,59.04 以及 95.60 的 matching subnetwork。对于分类,检测,以及分割等任务,本文发现了稀疏度处于 73.79 到 98.2 之间的 matching subnetwork。
  2. 同样对于上面三种预训练范式,稀疏度分别达到 67.23,59.04,59.04 的 subnetwork 保持了对分类任务的可迁移性,即在各种分类任务中使用它们作为初始化模型比起原有的预训练模型不会掉点。
  3. 对于上面三种预训练范式,稀疏度达到 73.79%/48.80%,48.80%/36.00%和73.79%/83.22% 的 subnetwork,可以无损迁移到检测/分割任务上。
  4. 与之前在随机初始化或训练早期发现的 matching subnetwork 不同,本文表明,那些在预训练初始化时识别的子网络对结构扰动更敏感。此外,不同的预训练方式往往产生不同的掩模结构和扰动敏感性。
  5. 大模型兼职得到的 subnetwork 性能更好。
总的来说,这项工作为用较小的子网替代大型预训练模型迈出了第一步,从而在不抑制泛化性能的情况下实现更有效的下游任务优化。随着预训练在 CV 领域变得越来越重要,本文的研究结果阐明了 LTH 在这个新范式中的相关性。
特别鸣谢
感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。
更多阅读
#投 稿 通 道#
 让你的文字被更多人看到 
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected] 
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·
继续阅读
阅读原文