13层网络如何拿下83％精度？极简神经网络架构VanillaNet作者亲自解读

过去几十年里，人工神经网络取得了显著的进展，这归功于一种理念：增加网络的复杂度可以提高性能。

从 AlexNet 引爆了深度学习在计算机视觉的热潮后，研究者们为了提升深度网络的性能，精心地设计出了各种各样的模块，包括 ResNet 中的残差，ViT 中的注意力机制等。然而，从 ResNet 到 ViT 以来，尽管深层的复杂神经网络可以取得很好的性能，但在实际应用中，这些网络的复杂度和硬件亲和程度使其部署时常常会遇到困难。

因此，来自华为诺亚、悉尼大学的研究者们设计了一种极简的神经网络模型 VanillaNet，期望用最简单的，类似 LeNet 和 AlexNet 这样的结构，达到甚至超越现在网络的精度，成为新一代的视觉骨干网络。

本工作的核心是如何让一个浅层网络在没有复杂链接和 attention 的情况下，尽可能地提升精度，针对极简网络面临的非线性大幅下降的技术难题，本工作提出了深层训练和级数激活函数两个方案来解决此问题。最终，6 层的 VanillaNet 可以超过 ResNet-34，13 层的 VanillaNet 在 ImageNet 可以达到 83% 的 top1 精度，超过几百层网络的性能，并展现了非凡的硬件效率优势。

为了更好的帮助大家了解这项研究，机器之心最新一期线上分享邀请到了论文作者之一陈汉亭，为大家解读他们近期的工作 VanillaNet。

分享主题：VanillaNet：深度学习中极简主义的力量

嘉宾简介：陈汉亭，华为诺亚方舟实验室研究员，主要研究方向为深度学习和计算机视觉。他在 NeurIPS/CVPR/TPAMI 等顶会顶刊发表 20 余篇论文，多项研究成果应用于华为产品。他的谷歌学术引用 2000+，其中加法网络、IPT 等工作受到广泛关注。

分享摘要：华为诺亚实验室的研究员提出了一种极简网络架构 VanillaNet，不含残差链接，自注意力等复杂的模块，却可以在计算机视觉任务上取得惊人的性能。在 ImageNet 图像识别任务上，13 层的 VanillaNet 在 ImageNet 可以达到 83% 的 top1 精度，速度超过同精度的 Swin Transformer 两倍以上。

相关链接：

论文链接：https://arxiv.org/abs/2305.12972

直播间：关注机动组视频号，立即预约直播。

交流群：本次直播有 QA 环节，欢迎加入本次直播交流群探讨交流。

继续阅读

阅读原文