©作者 | 张保权
单位 | 哈尔滨工业大学(深圳)
研究方向 | 小样本学习、元学习
论文标题:
MetaNODE: Prototype Optimization as a Neural ODE for Few-Shot Learning
收录会议:
AAAI 2022
论文链接:
https://www.aaai.org/AAAI22Papers/AAAI-1203.ZhangB.pdf
代码链接:
https://github.com/zhangbq-research/metanode
本文动机
最近,基于预训练的方法在少样本学习任务上已经展现了非常优越的性能。该方法首先在所有基类上预训练一个特征提取器,然后通过基于均值的原型执行新类的预测。然而,最近工作表明这种方法存在原型估计偏差问题,即,计算的平均原型和实际原型之间是存在差异。如图 1 所示,基于均值的原型(橙色正方形)通常远离真实原型(三角形)。造成这种原型偏差的原因是每个类别仅仅有非常少的标注样本(通常1个或者5个),如此少的标注样本无法为类别原型提供可靠的均值估计。 
为了解决这个缺点,最近一些存在的工作尝试通过学习一个原型矫正函数,并通过使用一步原型校正方式来矫正有偏差的原型估计(如图 1(a) 所示)。然而,由于特征空间的复杂性,仅仅采用一步的原型矫正函数去刻画原型偏差是非常困难的,难以获得一个准确的原型估计。
为此,在这篇文章中,本文提出了一种基于元学习的原型优化框架来矫正原型偏差。在这个框架中,本文将上述的原型偏差消除问题视为一种原型优化问题,并采用一种基于优化的元学习方法(称为元优化器)来解决这个优化问题。
具体来说,首先在所有基类数据上预训练一个分类器,进而获得一个良好的特征提取器。然后,给定一个小样本的分类任务,如图所示图 1(b),对每个类别所有标注样本特征进行平均,并将其均值作为每个类的初始原型。随后,这些原型将被元优化器进一步优化进而减少原型的估计偏差。最后,基于矫正后的类别原型,直接采用一种基于余弦的最近邻分类器对测试样本执行类别预测。
本文框架的核心是执行原型优化的元优化器。即使现有的一些存在的元优化器例如 ALFA和 MetaLSTM 也可用于此目的,它们都有一个共同的缺点,称为梯度偏差问题,即它们的梯度估计在少量标注样本下也是存在估计偏差的。造成如此梯度估计偏差问题的原因是现有的元优化器都对优化算法的超参数(例如,初始化 或者正则化参数)进行了建模(即,视其为元知识),但却采用了一种基于平均的方式去粗略估计梯度,这种平均的估计在标记样本很少的情况下是非常不准确的。因此,此类方法很难实现稳定的原型优化。 
为了解决这个问题,本文将优梯度下降算法的梯度流作为元知识,提出了一种基于神经 ODE 的元优化器,即将原型优化过程建模为由一个神经 ODE 指定的连续时间动态过程。这个想法的灵感主要来自于梯度下降算法可以看做成一个连续 ODE 基于欧拉的离散实例化。如此连续时间的元优化器的优点是原型修正的过程能够被刻画成一种连续的优化过程,从而为 FSL 生成更精确的原型。具体来说,在该元优化器中,本文精心设计了一个梯度流推理网络,旨在学会去估计原型优化动态的连续时间梯度流。基于这个梯度流,给定一个初始原型(即基于均值的原型),可以通过求解神经 ODE 来获得最优的原型估计。
方法
2.1 整体框架
本文所提出的框架包括 3 个阶段,包括预训练 (Pre-training),元训练 (Meta-training) 和元测试 (Meta-test), 如图 2 所示。
预训练阶段:基于整个 Base Class 数据,我们建立并训练一个基于卷积神经网络 (CNN) 的分类器。然后,我们去掉最后一个 softmax 分类层。最后,将会得到了一个特征提取器。 
元训练阶段:在这个阶段,我们模仿 N-Way K-Shot 的设置构建了大量的少样本分类任务,并利用 episodic 训练方式训练一个元优化器学会去优化原型。具体细节请参考原文)。 
元测试阶段:这个阶段和元训练阶段很相似,主要区别是,在这一步中,我们移除了元训练阶段中的参数优化过程,直接为 Novel Class 执行少样本图像分类任务。 
2.2 元优化器(Meta-Optimizer)
现有的元优化器的局限性。现有的元优化器均采用公式 5 的方式优化原型 p,其主要想法是利用元学习的方式学习一种泛化良好的初始参数(p0)、学习率(n)或者正则化参数(w)。尽管这些方法都取得了良好的效果,但是这些方法均采用了一种基于平均的方式去粗略估计梯度(见等式 6),这种平均的估计在标记样本很少的情况下是非常不准确的。因此,此类方法很难实现稳定的原型优化。

本文的 MetaNODE。最近的研究发现梯度下降算法的迭代过程 (GDA) 可以看作是常微分方程 (ODE) 的欧拉离散化,即:
这里 表示一种连续的变量(时间), 表示原型 的一种连续时间的梯度流。为此,为了更精细地娇正原型,我们提出采用 ODE 的方式去刻画原型偏差,并将原型矫正问题视为一种 ODE 初始值问题,其初始状态和最终状态值分别对应于基于均值的原型和最优原型。为了解决上述的梯度偏差问题,本文将原型 ,支持集 S,未标记样本集 Q,和时间 t 作为输入,然后设计了一种梯度流推理网络 GradNet(即元学习器 ) 来直接估计连续梯度流 。随后,ODE 变成神经 ODE,即 (详细的网络结构请参考原文)。
最后,基于 GradNet 和初始原型 p(0),最优原型 p(M) 可以通过评估最后一个时间点(t = M)的神经 ODE 来获得,即:
其中积分项由 ODE 求解器计算,即:
实验
我们在三个常用的数据集上评价了我们方法的性能,包括 miniImageNet、tieredImageNet 以及 CUB-200-2011 数据集。结果表明,我们的方法:1)获得了最佳的分类性能;2)能够估计更有代表性的原型。
3.1 实验结果
3.2 消融实验
3.3 可视化实验
结论
本文提出了一种基于元学习的原型优化框架,进而为 FSL 提供更准确的原型估计。特别地,本文设计了一种基于神经 ODE 的元优化器来捕获连续时间的原型优化动态。三个数据集的实验表明本文的模型比最先进的方法显着获得了卓越的性能。本文还进行了广泛的统计实验和消融研究,进一步验证所提出方法的有效性。
更多阅读
#投 稿 通 道#
 让你的文字被更多人看到 
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected] 
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·
继续阅读
阅读原文