点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
NeurIPS 2022 | Parameter-Efficient Masking Networks,美国东北大学,罗切斯特理工等,提出参数集约型掩码网络,探索有限数量随机数的表征能力并提升神经网络储存和传输效率。
为了处理更复杂的任务,近年来神经网络的规模也在不断变大,如何高效的储存和传输神经网络变得十分重要。另一方面,随着彩票假说(Lottery Ticket Hypothesis (LTH))的提出,随机稀疏神经网络最近展现出很强的潜力,如何利用这种潜力来提高网络的存储和传输效率也很值得探索。
来自美国东北大学和罗切斯特理工的研究者提出参数集约型掩码网络(Parameter-Efficient Masking Networks (PEMN))。作者首先探索了有限数量随机数生成的随机网络的表征能力。实验表明,即使网络由有限数量的随机数生成,通过选择不同的子网络结构,其依然具有很好的表征能力。通过这种探索性实验,作者自然地提出使用一组有限数量随机数作为prototype,结合一组mask来表达一个神经网络。因为有限数量的随机数和二值的mask占用很少的储存空间,作者以此来提出一种新的思路来进行网络压缩。文章已被NeurIPS 2022 接受。代码已开源。
Parameter-Efficient Masking Networks
论文地址: https://arxiv.org/abs/2210.06699
论文代码:  https://github.com/yueb17/PEMN
1. 相关研究
MIT研究人员提出彩票假说 Lottery Ticket Hypothesis (ICLR’19):在一个随机初始化网络中,存在一个彩票子网络(winning ticket)在被单独训练的情况下达到很好的效果。彩票假说探索了随机稀疏网络的可训练性。Uber研究人员提出Supermask (NeurIPS’19):在一个随机初始化网络中,存在一个子网络,可以直接用来做推断而不需要训练。Supermask探索了随机稀疏网络的可用性。华盛顿大学研究人员提出Edge-Popup (CVPR’20):通过反向传播学习子网络的mask,大幅提升了随机稀疏网络的可用性。
2. 研究动机/流程
以上相关研究从不同角度探索了随机稀疏网络的潜力,如可训练性和可用性,其中可用性也可以理解为表征能力。在此工作中,作者感兴趣的是由随机数生成的神经网络在不训练权重的情况下有多强的表征能力。随着对该问题的探索,作者提出了Parameter-Efficient Masking Networks (PEMN)。自然地,作者运用PEMN为网络压缩提供了一种新的思路,并作为一个例子对PEMN的潜在应用场景进行探索。
3. 探索随机数构成的神经网络的表征能力
给定一个随机网络,作者选择Edge-Popup算法在其中选择子网络来探索其表征能力。不同的是,相对于对整个网络进行随机初始化,作者提出了三种参数集约型的网络生成策略来使用一个prototype构建随机网络。
One-layer: 选择网络中重复结构的权重作为prototype来填充其他的与之结构相同的网络层。
Max-layer padding (MP): 选择参数量最多的网络层作为prototype并且截断相应的参数量来填充其他网络层。
Random vector padding (RP): 选择一定长度的随机向量作为prototype并对其进行复制来填充整个网络。
三种不同的随机网络生成策略把网络中不重复参数值(unique values)的数量逐步变小,我们基于不同策略得到的随机网络来选择子网络,从而探索了有限数量随机数生成的随机网络的表征潜力。
上图展示了使用ConvMixer 和 ViT 网络CIFAR10图像分类的实验结果。Y轴为准确率,X轴为使用不同策略得到的随机网络。随之X轴的变大,随机网络中不重复随机数数量逐渐变小 (RP后的数字表示相比较于MP,RP中不重复随机数数量的比例)。根据实验结果,我们观察到即使随机网络只有非常有限的不重复随机数(比如PR_1e-3),依然可以很好的维持选择出来的子网络的表征能力。至此,作者通过不同的随机网络生成策略,探索了有限数量随机数构成的神经网络的表征能力并观察到即使不重复随机数非常有限,其对应的随机网络依然可以很好地对数据进行表征。同时作者基于这些随机网络生成策略,结合所得到的子网络掩码,提出了Parameter-Efficient Masking Networks(PEMN)这种新的神经网络类型。
4. 一种新的网络压缩思路
本文选择了神经网路压缩为例来拓展PEMN的潜在应用。具体来说,文中所提出的不同随机网络生成策略可以高效的使用prototype来代表完整的随机网络,尤其是最细粒度的random vector padding (RP)策略。作者使用RP策略中的随机向量prototype和与之对应的一组子网络掩码来表示一个随机网络。在其中prototype需要保存浮点数格式,而掩码只需要保存成二值格式。因为RP中的prototype长度可以很短(因为有限数量的不重复随机数仍有很强的表征能力),所以表示一个神经网络的开销会变得很小,即储存一个长度有限的浮点数格式的随机向量和一组二值格式的掩码。相比较于传统的稀疏网络储存子网络的浮点值,本文提出了一种新的网络压缩思路用来高效的储存和传输神经网络。
在上图中,作者使用PEMN对网络进行压缩并与传统的网络剪枝方法进行对比。实验使用ResNet网络在CIFAR数据集做图像分类任务。我们观察到,新的压缩方案表现普遍优于传统的网络剪枝,尤其是在很高的压缩率下,PEMN仍然可以维持较好的准确率。
5. 结论
本文受近来随机网络展现出来的潜力所启发,提出不同种参数集约策略来构建随机神经网络,进而探索了在只有有限的不重复随机数的情况下所生成的随机神经网络的表征潜力,并提出参数集约型掩码网络Parameter-Efficient Masking Networks (PEMN)。作者将PEMN应用到网络压缩的场景中探索了其在实际应用方面的潜力并且为网络压缩提供了一种新的思路。作者提供了广泛的实验,表明了即使随机网络中只有非常有限的不重复随机数,通过子网络的选择,其依然有较好的表征能力。此外,相比较于传统剪枝算法,实验表明新提出的方法可以取得更好的网络压缩效果,验证了PEMN在该场景下的应用潜力。
点击进入—>CV微信技术交流群
CVPR/ECCV 2022论文和代码下载
后台回复:CVPR2022,即可下载CVPR 2022论文和代码开源的论文合集
后台回复:ECCV2022,即可下载ECCV 2022论文和代码开源的论文合集
后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF
目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer222,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer222,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!
扫码进群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
继续阅读
阅读原文