现代神经网络通常利用一阶梯度方法进行训练,这类方法又可以划分为两个不同的方向,分别是加速随机梯度下降(SGD)和自适应学习率方法(如 Adagrad 和 Adam)。两者的运行原理不同,SGD 方法学习使用所有参数的全局学习率,而自适应方法计算每个参数的学习率。运行原理的不同也导致两者在效果方面出现差异。
具体而言,自适应方法通过在早期训练阶段收敛较快,但遗憾的是泛化性能太差。所以,如何结合 SGD 和自适应方法的各自优势成为重要的研究课题。例如,Salesforce 研究院高级研究科学家 Nitish Shirish Keskar 等通过从 Adam 切换到 SGD 来提升泛化性能,以及谷歌研究院学者 Liangchen Luo 等利用学习率动态边界的自适应梯度方法。此外,研究人员也提出了各种针对 Adam 的改进方法,但结果不尽如人意。虽然准确率提升了,但在 ImageNet 等大规模数据集上的泛化性能依然低于 SGD。并且,与 Adam 相比,很多新提出的优化器在训练 GAN 时不稳定。
针对这些问题,在耶鲁大学等科研机构这篇被 NeurIPS 2020 接收的论文《AdaBelief optimizer: adapting stepsizes by the belief in observed gradients》中,研究者提出了首个同时实现如自适应方法一样快速收敛、如 SGD 一样良好泛化以及如 GAN 一样训练稳定的优化器 AdaBelief。研究者表示,该优化器可以用于训练所有对参数梯度进行数值估计的模型,进而促进深度学习模型的发展和应用。
机器之心最新一期 NeurIPS 线上分享邀请到了论文一作、耶鲁大学生物医学工程系博士生庄钧堂,为大家详细解读此前沿研究。
分享主题:优化器 AdaBelief:根据当前梯度方向上的「belief」来调整步长
分享嘉宾:庄钧堂,耶鲁大学生物医学工程系博士生,其导师是 James S. Duncan。研究方向为医学图像处理和机器学习,目前关注优化算法和微分方程的应用。
分享概要:最常用的深度学习优化器大致可分为自适应方法(如 Adam)和加速方案(如带有动量的随机梯度下降(SGD))。与 SGD 相比,许多模型(如卷积神经网络)采用自适应方法通常收敛速度更快,但泛化效果却较差。对于生成对抗网络(GAN)这类的复杂情况,通常默认使用自适应方法,因为其具有稳定性。
本文提出新的优化器 AdaBelief,根据当前梯度方向上的「belief」来调整步长,将嘈杂梯度的指数移动平均(EMA)当作下一步的梯度预测。如果观察到的梯度大大偏离了预测,那么就不信任当前的观察,采取一个较小的步长;如果观察到的梯度接近预测值,那么就相信当前的观察,并采取一个较大的步长。本文通过实验验证了 AdaBelief 同时满足 3 个优点:自适应方法的快速收敛、良好泛化性、训练稳定性。
直播时间:北京时间 11 月 19 日 20:00-21:00
  • 论文链接:https://arxiv.org/abs/2010.07468
  • 代码链接:https://github.com/juntang-zhuang/Adabelief-Optimizer
加入机动组,一起看直播
「机动组」是机器之心发起的人工智能技术社区,将持续提供技术公开课、论文分享、热门主题解读等线上线下活动,并在社群中提供每日精选论文与教程、智能技术研究周报,同时「机动组」也将不定期组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。添加机器之心小助手(syncedai5),备注「2020」,加入本次直播群。
ps:如果小助手无法添加,请将「微信 ID」发送邮件到 [email protected],我们将与你联系,邀你入群。
继续阅读
阅读原文