AAAI 2022 | MetaNODE：针对小样本问题的神经ODE元优化器

©作者 | 张保权

单位 | 哈尔滨工业大学（深圳）

研究方向 | 小样本学习、元学习

论文标题：

MetaNODE: Prototype Optimization as a Neural ODE for Few-Shot Learning

收录会议：

AAAI 2022

论文链接：

https://www.aaai.org/AAAI22Papers/AAAI-1203.ZhangB.pdf

代码链接：

https://github.com/zhangbq-research/metanode

本文动机

最近，基于预训练的方法在少样本学习任务上已经展现了非常优越的性能。该方法首先在所有基类上预训练一个特征提取器，然后通过基于均值的原型执行新类的预测。然而，最近工作表明这种方法存在原型估计偏差问题，即，计算的平均原型和实际原型之间是存在差异。如图 1 所示，基于均值的原型（橙色正方形）通常远离真实原型（三角形）。造成这种原型偏差的原因是每个类别仅仅有非常少的标注样本（通常1个或者5个），如此少的标注样本无法为类别原型提供可靠的均值估计。

为了解决这个缺点，最近一些存在的工作尝试通过学习一个原型矫正函数，并通过使用一步原型校正方式来矫正有偏差的原型估计（如图 1(a) 所示）。然而，由于特征空间的复杂性，仅仅采用一步的原型矫正函数去刻画原型偏差是非常困难的，难以获得一个准确的原型估计。

为此，在这篇文章中，本文提出了一种基于元学习的原型优化框架来矫正原型偏差。在这个框架中，本文将上述的原型偏差消除问题视为一种原型优化问题，并采用一种基于优化的元学习方法（称为元优化器）来解决这个优化问题。

具体来说，首先在所有基类数据上预训练一个分类器，进而获得一个良好的特征提取器。然后，给定一个小样本的分类任务，如图所示图 1(b)，对每个类别所有标注样本特征进行平均，并将其均值作为每个类的初始原型。随后，这些原型将被元优化器进一步优化进而减少原型的估计偏差。最后，基于矫正后的类别原型，直接采用一种基于余弦的最近邻分类器对测试样本执行类别预测。

本文框架的核心是执行原型优化的元优化器。即使现有的一些存在的元优化器例如 ALFA和 MetaLSTM 也可用于此目的，它们都有一个共同的缺点，称为梯度偏差问题，即它们的梯度估计在少量标注样本下也是存在估计偏差的。造成如此梯度估计偏差问题的原因是现有的元优化器都对优化算法的超参数（例如，初始化或者正则化参数）进行了建模（即，视其为元知识），但却采用了一种基于平均的方式去粗略估计梯度，这种平均的估计在标记样本很少的情况下是非常不准确的。因此，此类方法很难实现稳定的原型优化。

为了解决这个问题，本文将优梯度下降算法的梯度流作为元知识，提出了一种基于神经 ODE 的元优化器，即将原型优化过程建模为由一个神经 ODE 指定的连续时间动态过程。这个想法的灵感主要来自于梯度下降算法可以看做成一个连续 ODE 基于欧拉的离散实例化。如此连续时间的元优化器的优点是原型修正的过程能够被刻画成一种连续的优化过程，从而为 FSL 生成更精确的原型。具体来说，在该元优化器中，本文精心设计了一个梯度流推理网络，旨在学会去估计原型优化动态的连续时间梯度流。基于这个梯度流，给定一个初始原型（即基于均值的原型），可以通过求解神经 ODE 来获得最优的原型估计。

方法

2.1 整体框架

本文所提出的框架包括 3 个阶段，包括预训练 (Pre-training)，元训练 (Meta-training) 和元测试 (Meta-test)，如图 2 所示。

预训练阶段：基于整个 Base Class 数据，我们建立并训练一个基于卷积神经网络 (CNN) 的分类器。然后，我们去掉最后一个 softmax 分类层。最后，将会得到了一个特征提取器。

元训练阶段：在这个阶段，我们模仿 N-Way K-Shot 的设置构建了大量的少样本分类任务，并利用 episodic 训练方式训练一个元优化器学会去优化原型。具体细节请参考原文）。

元测试阶段：这个阶段和元训练阶段很相似，主要区别是，在这一步中，我们移除了元训练阶段中的参数优化过程，直接为 Novel Class 执行少样本图像分类任务。

2.2 元优化器（Meta-Optimizer）

现有的元优化器的局限性。现有的元优化器均采用公式 5 的方式优化原型 p，其主要想法是利用元学习的方式学习一种泛化良好的初始参数（p0）、学习率（n）或者正则化参数（w）。尽管这些方法都取得了良好的效果，但是这些方法均采用了一种基于平均的方式去粗略估计梯度（见等式 6），这种平均的估计在标记样本很少的情况下是非常不准确的。因此，此类方法很难实现稳定的原型优化。

本文的 MetaNODE。最近的研究发现梯度下降算法的迭代过程 (GDA) 可以看作是常微分方程 (ODE) 的欧拉离散化，即：

这里表示一种连续的变量（时间），表示原型的一种连续时间的梯度流。为此，为了更精细地娇正原型，我们提出采用 ODE 的方式去刻画原型偏差，并将原型矫正问题视为一种 ODE 初始值问题，其初始状态和最终状态值分别对应于基于均值的原型和最优原型。为了解决上述的梯度偏差问题，本文将原型，支持集 S，未标记样本集 Q，和时间 t 作为输入，然后设计了一种梯度流推理网络 GradNet（即元学习器 ) 来直接估计连续梯度流。随后，ODE 变成神经 ODE，即（详细的网络结构请参考原文）。