©PaperWeekly 原创 · 作者 | 陈思硕
单位 | 北京大学
研究方向 | 自然语言处理
预训练-微调已经成为自然语言理解领域的标准范式,而微调后的预训练模型对不同类型的分布外(OOD)样本的检测能力尚缺乏全面的探究分析。来自北京大学的研究者深入分析了现有方法对语义迁移(Semantic Shift,简称 SS)类型的分布外样本与非语义迁移(Non-Semantic Shift,简称 NSS,又名背景迁移)类型的分布外样本的检测表现,发现在模型微调前后存在有趣的 trade-off: 
在预训练特征上构建的检测器在 NSS 类型的 OOD 数据上表现最好,而模型微调后,检测器在 NSS 类型的 OOD 数据上的表现显著下降,在 SS 类型的 OOD 数据上的表现显著上升并达到现有方法中的最优。
也就是说,没有单一方法在两种类型的分布外样本上都能取得最佳的检测表现,根据作者的分析,微调破坏了与类别标签无关的通用特征,从而导致 NSS 类型 OOD 样本的检测性能下降。
基于以上实验观察与分析,作者提出一种简单有效的通用分布外检测指标 GNOME,它集成了从预训练特征与微调后模型特征计算出的距离分数,在 NSS 与 SS 两类 OOD 数据上都能取得接近 SOTA 的性能(因此在平均意义上最佳),并且在 OOD 数据兼具两类分布迁移的基准数据集上取得了最佳表现。日前,该论文被 EACL 2023 (Findings) 录用。
论文标题:
Fine-Tuning Deteriorates General Textual Out-of-Distribution Detection by Distorting Task-Agnostic Features
论文链接:
https://arxiv.org/pdf/2301.12715.pdf
收录会议:
EACL 2023 (Findings)
背景与动机
1.1 研究背景:NLP模型的OOD检测
自 BERT、GPT 等预训练模型发布以来,预训练-微调已经成为自然语言理解任务的通用范式,但微调后的模型在面对与训练集分布不同的分布外数据(OOD data)时,容易给出过高的置信度 ,威胁到开放世界中模型的安全性。
因此,基于预训练模型的文本分布外检测(textual ODD detection)近期颇受关注。该问题的本质是一个可以建模为二分类的异常检测问题,模型除了给出分布内(ID)的类别标签预测外,还需要对测试样本 给出置信度分数 以进行 OOD detecton 的决策:
其中 越高,表示检测器 越倾向于认为 是分布内(in-distribution,ID)样本; 则为用户选定的阈值。
1.2 研究动机:OOD文本缺乏统一定义,导致现存方法的评测并不全面
对给定的 OOD 检测算法,研究者一般在分布内的训练集上训练分类模型和检测器,之后在分布内的测试集和 OOD 测试集上使用给定的检测器分别得到置信度分数,衡量两个分布的差异以评价 OOD 检测器的性能(理想的检测器对所有分布内样本给出的置信度分布 都应该比任何 OOD 样本的置信度高)。
一般使用 AUROC(即 ID/OOD 二分类的 AUC,越高越好)与 FAR95(95% 的 ID 样本被召回时,被误认为 ID 的 OOD 样本的比例,越低越好)衡量。
然而,自然语言处理领域的研究者对 OOD 文本的定义缺乏共识,现有 OOD 检测方法的性能的性能未得到全面的评价。具体来说,模型部署环境中面对的分布迁移可分为两类:
1. 语义迁移(Semantic Shift,简称 SS):分布外数据与分布内数据共享相似的背景信息(如长度分布、语言风格等),但属于新的语义类别,如对话意图识别中研究者关注的 unknown intents [2][3] 属于主要由语义迁移(SS)形成的 OOD 数据; 
2. 非语义迁移(Non-Semantic Shift,简称 NSS,又名背景迁移):分布外数据和分布内数据共享相同的语义标签,但在背景信息上不同,如有害信息识别(toxicity detection,有害/无害的二分类任务)中,推特数据作为分布内数据集时,Wikipedia 中的评论属于主要由非语义迁移(NSS)造成的 OOD 数据(它们共享有害、无害这两个语义标签)。
值得一提的是,即使在分布内数据上训练的模型也可以在由 NSS 形成的分布外样本上做出预测,但其性能往往会有显著的下降(如何提升在这类数据上的泛化性能则是 OOD generalization 领域的研究目标)。鉴于在医疗、自动驾驶等高风险领域错误预测的代价高昂,将这类分布外样本拒绝是合理的选择(模型进行保守的低置信度预测,将控制权交给人类),相当一部分 NLP 领域的 OOD detection 研究工作在这类分布外数据集上进行测试 [4][5][6]。 
此外,在现实中的 OOD 数据常有兼具 SS/NSS 两种迁移的情况,NLP 研究者通常使用与分布内数据集来自不同任务的数据集来模拟这种情况进行测试 [7][8][9](在本文中称为 the cross-task setting),如 SST-2 影评情感分类数据作为分布外数据集,而 20Newsgroups 新闻分类数据集作为 OOD 数据。
由于对 OOD 文本缺乏统一的定义,现有的工作往往只将本身提出的新检测方法与基线在某种设定下进行评测、得出结论,对检测器在现实中各类分布迁移下的表现缺乏全面的评测。Arora et al., EMNLP 2021 [5] 初步指出了这个问题,并对部分简单的基线在 SS 和 NSS 的设定下做了初步测评,但对现存主流方法在各种设定下表现的全面评测尚属空白。
因此,本工作首先在 SS 和 NSS 这两类迁移分别占主要地位的基准数据集上对主流方法进行了全面的评测(实验设定详见下一小节)。
评测数据集
2.1 评测数据集
为分别分析现有方法检测 NSS、SS 两类分布迁移的能力,我们从现有数据中构建了一套 NSS 或 SS 占主要地位的基准数据集以进行评测。具体来说,对非语义迁移(NSS),我们选择了来自两个任务的四个数据集:
1. 影评情感分类:SST-2 和 IMDB,互为 ID/OOD; 
2. 有害信息检测:Twittter 和 Jigsaw,互为 ID/OOD。 
对语义迁移(SS),我们选择了来自两个任务的四个数据集: 
1. 对话意图识别:ROSTD 与 SNIPS; 
2. 新闻主题分类:AGNews 与 News Category。 
在这四个数据集中,我们使用部分已知类别的数据作为分布内数据集,另外一部分未知类别的数据作为 OOD 测试数据。总的来说,整个 benchmark 的框架如下表:
2.2 基线方法
OOD 检测方法的核心即如何计算置信度分数 ,我们根据此将本文测评的主流方法分为三类:
1. condidence-based
基于在分布内数据上训练的分类模型给出的 softmax 概率计算置信度 ,包括 MSP[1](即预测类别的 softmax 概率)、Scaling[10](在 MSP 基础上进行 temperature scaling)、Energy[11](计算能量分数)、D2U[12](计算概率分布到平均分布的距离)四种基线方法。
2. distance-based
基于在分布内数据上训练的分类模型(或未微调的预训练模型)中间层特征空间中的距离信息(测试样本到分布内训练集分布的距离)计算置信度 ,如基于马氏距离(Mahalanobis Distance,简称 MD)的方法 [13] 与基于 KNN 距离的方法 [14]。当使用未微调的预训练模型的特征时,称为 ;当使用微调后的分类模型的特征时,称为
此外,我们还测评了其他变种:Zhou et al., EMNLP 2021[8] 提出的使用有监督对比学习目标辅助训练模型后计算特征空间马氏距离的方法,称为 ++;在微调后特征上训练的 local outlier detector (LOF)[17]。
3. density-based
基于自回归语言模型给出的生成概率计算 ,我们使用在分布内数据上微调过的 GPT-2 给出的 PPL 之倒数作为基线,即
除基于 GPT 的 PPL 方法以外,其余方法的 backbone 均为 roberta-base 模型。
观察与分析
3.1 基线方法在两类OOD数据上的表现
我们在上述以 NSS 和 SS 分别为主导的基准数据集上测试了基线方法的表现,将平均 AUROC/FAR95 值列在下方的 Table2 中,并以散点图的形式直观地在下方的 Figure 1 中呈现了基线方法对两类分布迁移的检测性能(纵轴为 SS,横轴为 NSS,数值为 FAR95,越低表示检测性能越好)。
显然,基于微调后模型特征距离的方法 与  在语义迁移 SS 对应的数据集上表现最好(散点图右下方),但在检测非语义迁移 NSS 方面性能糟糕(平均 FAR95 高达 80% 以上);而基于未微调的预训练特征距离的方法 与  正好与之相反(散点图左上方),在 NSS 的检测上性能最佳(平均 FAR95 达到 30% 以下),而在检测 SS 上差于大多数基线。
此外,基于微调后模型分类置信度的方法 MSP、Energy 等在检测两类迁移的性能上都不如 与 ;基于语言模型生成概率的方法 PP L在检测非语义迁移 NSS 上略优于 与 (但依然远差于 与 ),而且在检测语义迁移 SS 方面性能非常差(FAR95 超过 90%)。
总的来说,基于特征距离的方法表现最好,但在微调前后呈现出一个有趣的 trade-off:微调有利于对语义迁移 SS 的检测,却有害于对非语义迁移 NSS 的检测在普通的交叉熵损失微调基础上加入带间隔的有监督对比学习辅助损失 可以在略微牺牲 SS 检测性能的情况下相比原来的 基线显著提升 NSS 检测的性能,但在 NSS 的检测上依然远差于 与 。
理想情况下,一个通用的分布外文本检测器应该兼具检测 SS 与 NSS 的卓越性能(即散点图的左下角)。本文提出的方法 GNOME(图中左下角的绿星)就初步达到了这个目标,在具体介绍方法之前,我们首先对微调对 OOD 检测的作用进行了分析,以理解为何微调会导致检测 NSS 的性能下降。
3.2 微调为何导致非语义类型OOD检测的性能损失
3.2.1 特征可视化
我们首先使用 t-SNE 降维直观地呈现微调前后特征分布的变化。如下图 (a) 所示,在 NSS 设定下,左侧画出的预训练特征分布中,ID(蓝色表示类别 1,橙色表示类别 2)和 OOD 样本(红色)有清楚的分界,但在模型微调后(右侧),虽然 ID 样本形成按类别划分的蓝色和橙色簇,OOD 样本却和 ID 样本在特征空间中混杂在一起。
如下图 (b) 所示,在 SS 设定下,微调使得 OOD 样本和 ID 样本的分界变得更明显。微调有利于检测语义类型的分布迁移(SS)是容易理解的(模型在标签监督下学习到了类别相关的语义特征,有利于将识别未知类别 [15]),而微调对 NSS 检测的负面作用尚缺乏深入的理解。
3.2.2 Probing分析
直观地来看,NSS 类型的 OOD 样本与分布内的数据属于相同的任务,共享语义标签集合,主要的不同在于句子长度、行文风格等与任务标签无关的非语义特征(task-agnostic features)。因此,我们猜想微调的负作用可能来自于对这些非语义特征的破坏。
为了验证这一猜想,我们分析了 roberta-base 模型在 SST-2 上微调的过程中,最后一层特征在句子长度(SentLen)和二元组对换(BigramShift)这两个典型的与下游任务标签无关的探测任务 [16](probing task)上的 accuracy,并和分布内任务的 test accuracy 和表示 OOD 检测性能的 AUROC(OOD 数据位 IMDB,属于单纯的非语义迁移)的趋势一同呈现在下图。
如图,随着模型的微调,test accuracy 震荡上升,而 AUROC 值和两个探测任务的 accuracy 逐渐震荡下降,呈较强的相关性。这一经验观察表明,模型的微调可能通过破坏预训练模型中与下游任务标签无关的特征使检测非语义分布迁移的能力下降。
3.2.3 正则化的作用
如果上述猜想成立(微调通过破坏任务无关的预训练特征起负作用),那么一个自然的推论是,通过对微调过程施加正则化,可以减少对预训练特征的破坏,进而提升对 NSS 类型 OOD 数据检测的性能。为此,我们测试了减缓灾难遗忘的 RecAadam 优化器 [18]、增大分类头学习率 [19]、linear-probing-then-finetuning (LP-FT) [20] 三种流行的微调正则化方法。
如下表所示,LP-FT 可以在损失小部分 SS 设定下的 OOD 检测性能的前提下,相比不带正则化的 显著提升在 NSS 设定下的 OOD 检测性能,将整个 benchmark 上的平均 FAR95 由 57.42% 降低到 50.92%,但它在 NSS 设定下的 OOD 检测性能依然和直接使用预训练特征的 存在很大的差距(约 30 个 FAR95 百分点)。
这说明现有的正则化技术虽然能起到缓解预训练特征破坏、一定程度下提升对 NSS 类 OOD 数据检测性能的作用,但在微调后的模型中很好地保留原有的任务无关特征是富有挑战的。因此,我们转而直接集成现成的预训练特征和微调后模型得到的特征,引出我们的解决方案 GNOME。

方法:GNOME——集成微调前后特征的通用检测指标

4.1 GNOME的计算

首先,测试样本 到分布内训练集的马氏距离 定义如下:
其中 为 对应的中间层特征(我们的实验中均取最后一层之后、分类头之前的 CLS 特征), 为分布内任务的类别数, 为类别 的中心, 为全局协方差矩阵。
为聚合预训练特征和微调后的特征计算的距离分数,一个简单的思路是直接取 和 的平均,再取负作为检测 OOD 的置信度分数。但是,考虑到两个空间特征的范数可能不一致,简单地取平均可能导致最终的置信度分数偏向范数较大的一侧。为此,我们在聚合之前首先对 和  进行正则化:
其中 和 分别为在分布内验证集上估计的平均分数和标准差。之后,我们聚合正则化后的分数并取负(距离越远表示越可能是 OOD),得到集成的置信度分数 GNOME(GeNeral textual OOD Measurement scorE):
其中 为聚合算符,在我们的主要实验中使用取平均算符。注意,由于 OOD 检测通常假设 OOD 数据的分布未知、OOD 数据在检测器训练时不可得,我们未使用可学习的加权平均对两个分数进行聚合。

4.2 实验表现

下表给出 GNOME 和 12 种基线方法在上文所述的 benchmark 组合上的 OOD 检测性能(FAR95,越低越好)。
如图,虽然 GNOME 在 NSS 设定下略差于只使用预训练特征的 和 ,在 SS 设定下略差于只使用微调后特征的 和 ,但它的优势在于在两种设定下都能很好地工作,将整个 benchmark 集合上的平均 FAR95 由之前最低的 44.63%()降到了 36.50%,显著提升了 OOD 检测器在面对未知 OOD 数据时平均意义下的检测性能。
此外,我们还测试了基线与我们的方法 GNOME 在 cross-task 设定下的 OOD 检测性能。此设定下,OOD 数据与分布内数据来自不同的任务,兼具语义迁移和非语义迁移的影响。我们使用 SST-2 和 20 Newsgroups 作为分布内数据集,除这两者互为 ID/OOD 外,还使用了来自其他任务的 TREC-10、WMT-16、Multi30k、RTE、SNLI 等数据集作为 OOD 测试数据,在下表中报告在各个 OOD 测试集上宏平均的 FAR95 指标(越低越好)。
如表所示,在 SST-2 上,GNOME 相对于各 baseline 都有显著的性能提升;在 20NG 上,GNOME 与最佳的 和 相当,说明此处非语义迁移(NSS)起到主要作用。在缺乏对 OOD 数据类型的先验知识的情况下,使用 GNOME 将是更安全的选择。
4.3 消融分析与其他
为了探究 GNOME 分数的计算中进行正则化的必要性和聚合算符的选取,我们进行了消融分析,结果如下表:mean 算符优于 max 算符(在各种设定下都有提升);如果关闭正则化,SS 设定的检测性能会略微上升(FAR95 降低约 3 个百分点),但 NSS 设定下和 cross-task (CT) 设定下的性能都会显著下降(FAR95 分别上升约 7 个百分点),说明进行正则化有利于最终的分数平衡地体现语义迁移和非语义迁移的影响。
此外,我们还对 GNOME 在不同预训练模型上的泛化性能、预训练特征抽取方式的影响、与同等推理代价的 model-ensemble 方法的比较等话题进行了详细的讨论,详见论文。
结语与展望
鉴于现有的分布外文本检测方法缺乏全面、公平的评测,我们首次对它们在不同类型分布迁移的检测性能进行了系统性的评估,观察到了一个有趣的 trade-off:在分布内数据上微调预训练模型的标准操作有利于对语义迁移(SS)的检测,但对非语义迁移(NSS)的检测有害。
我们从预训练特征破坏的视角对微调的负作用来源进行了经验性的分析解释,进而提出同时利用预训练特征和微调后特征、对不同类型分布外文本通用的 OOD 检测方法 GNOME。详尽的实验结果证实了 GNOME 的有效性。
值得注意的是,GNOME 是一种简单、高效地集成预训练特征距离和微调后特征距离的方法,虽然它在 SS 设定下略弱于使用微调后特征的方法,在 NSS 设定下略弱于使用预训练特征的方法,但在未知 OOD 数据类型的情况下,它平均意义上的检测性能是最佳的。 
在现实应用中,线上模型可能面对的 OOD 数据是多样、未知的,使用 GNOME 作用衡量 OOD 程度的指标可以提高平均意义下的 OOD 检测性能、增强模型的部署的安全性。
本文的核心贡献在于发现、分析了模型微调对检测不同类型的 OOD 文本的影响(存在增强 SS 检测而减弱 NSS 检测的 trade-off),并提出了集成两类特征分数的 GNOME 作为首个缓解这个 trade-off 的方法,为今后研究更通用而高效的 OOD 文本检测算法提供启示。
参考文献
[1] Hendrycks, Dan, Xiaoyuan Liu, Eric Wallace, Adam Dziedzic, Rishabh Krishnan, and Dawn Song. "Pretrained Transformers Improve Out-of-Distribution Robustness." In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pp. 2744-2751. 2020.
[2] Podolskiy, Alexander, Dmitry Lipin, Andrey Bout, Ekaterina Artemova, and Irina Piontkovskaya. "Revisiting mahalanobis distance for transformer-based out-of-domain detection." In Proceedings of the AAAI Conference on Artificial Intelligence, vol. 35, no. 15, pp. 13675-13682. 2021.
[3] Zhou, Yunhua, Peiju Liu, and Xipeng Qiu. "KNN-contrastive learning for out-of-domain intent classification." In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 5129-5141. 2022.
[4] Li, Xiaoya, Jiwei Li, Xiaofei Sun, Chun Fan, Tianwei Zhang, Fei Wu, Yuxian Meng, and Jun Zhang. "kFolden: k-Fold Ensemble for Out-Of-Distribution Detection-Fold Ensemble for Out-Of-Distribution Detection." In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pp. 3102-3115. 2021.
[5] Arora, Udit, William Huang, and He He. "Types of Out-of-Distribution Texts and How to Detect Them." In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pp. 10687-10701. 2021.
[6] Hanyu Duan, Yi Yang, Ahmed Abbasi, and Kar Yan Tam. 2022. BARLE: Background-Aware Representation Learning for Background Shift Out-of-Distribution Detection. In Findings of the Association for Computational Linguistics: EMNLP 2022, pages 750–764.
[7] Hendrycks, Dan, Xiaoyuan Liu, Eric Wallace, Adam Dziedzic, Rishabh Krishnan, and Dawn Song. "Pretrained Transformers Improve Out-of-Distribution Robustness." In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pp. 2744-2751. 2020.
[8] Zhou, Wenxuan, Fangyu Liu, and Muhao Chen. "Contrastive Out-of-Distribution Detection for Pretrained Transformers." In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pp. 1100-1111. 2021.
[9] Sishuo Chen, Xiaohan Bi, Rundong Gao, and Xu Sun. 2022. Holistic Sentence Embeddings for Better Out-of-Distribution Detection. In Findings of the Association for Computational Linguistics: EMNLP 2022, pages 6676–6686.
[10] Liang, Shiyu, Yixuan Li, and R. Srikant. "Enhancing The Reliability of Out-of-distribution Image Detection in Neural Networks." In International Conference on Learning Representations.
[11] Liu, Weitang, Xiaoyun Wang, John Owens, and Yixuan Li. "Energy-based out-of-distribution detection." Advances in neural information processing systems 33 (2020): 21464-21475.
[12] Eyup Yilmaz and Cagri Toraman. 2022. D2U: Distance-to-Uniform Learning for Out-of-Scope Detection. In Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 2093–2108.
[13] Lee, Kimin, Kibok Lee, Honglak Lee, and Jinwoo Shin. "A simple unified framework for detecting out-of-distribution samples and adversarial attacks." Advances in neural information processing systems 31 (2018).
[14] Yiyou Sun, Yifei Ming, Xiaojin Zhu, and Yixuan Li. 2022. Out-of-distribution detection with deep nearest neighbors. In International Conference on Machine Learning.
[15] Fort, Stanislav, Jie Ren, and Balaji Lakshminarayanan. "Exploring the limits of out-of-distribution detection." Advances in Neural Information Processing Systems 34 (2021): 7068-7081.
[16] Conneau, Alexis, German Kruszewski, Guillaume Lample, Loïc Barrault, and Marco Baroni. "What you can cram into a single$ &!#* vector: Probing sentence embeddings for linguistic properties." In ACL 2018-56th Annual Meeting of the Association for Computational Linguistics, vol. 1, pp. 2126-2136. Association for Computational Linguistics, 2018.
[17] Ting-En Lin and Hua Xu. 2019. Deep unknown intent detection with margin loss. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 5491–549.
[18] Chen, Sanyuan, Yutai Hou, Yiming Cui, Wanxiang Che, Ting Liu, and Xiangzhan Yu. "Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less Forgetting." In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 7870-7881. 2020.
[19] Prabhu, Viraj, Shivam Khare, Deeksha Kartik, and Judy Hoffman. "Sentry: Selective entropy optimization via committee consistency for unsupervised domain adaptation." In Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 8558-8567. 2021.
[20] Kumar, Ananya, Aditi Raghunathan, Robbie Matthew Jones, Tengyu Ma, and Percy Liang. "Fine-Tuning can Distort Pretrained Features and Underperform Out-of-Distribution." In International Conference on Learning Representations.
更多阅读
#投 稿 通 道#
 让你的文字被更多人看到 
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected] 
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·
·
继续阅读
阅读原文