©PaperWeekly 原创 · 作者 | 陶林伟,朱佑男
单位 | 悉尼大学
研究方向 | Calibration
近年来,深度学习网络在预测准确率方面取得了显著成就。然而,在安全至关重要的领域,如医疗和自动驾驶,这些模型的 Overconfidence 却遭到了广泛质疑。这种模型的 confidence 与实际概率不一致的现象,我们称之为 “Miscalibration”。
虽然不少研究工作致力于解决这一问题,但却鲜有研究探讨 Calibration 的性质。NAS(Neural Architecture Search)为我们提供了大量不同的卷积网络架构,借助 NAS,我们希望深入探索不同模型 Calibration 的特点和规律。
通过对 NATS-Bench(一个 NAS search space)中的模型以及常见的 ViT、CNN 进行综合分析,我们重新审视了 Calibration 的一些常见误区,并针对以下长期存在的疑问提出了我们的见解和答案。
  1. Calibration 是否能跨不同数据集 generalize?
  2. Robustness 是否可作为 Calibration 的一个标准?
  3. Calibration 度量指标的可靠性如何?
  4. Post hoc Calibration 方法是否对所有模型均有统一效果?
  5. Calibration 与 Accuracy 之间是如何相互作用的?
  6. Calibration 度量指标Bin的数量设置对 Calibration 测量的影响有多大?
  7. 哪些模型架构设计有利于 Calibration?
通过深入的分析和研究,我们期待在深度学习领域中为 Calibration 问题的解决提供新的思路。
论文题目:
A Benchmark Study on Calibration
论文主页:
https://www.taolinwei.com/calibration-study
实验方案
在这项研究中,我们的目标是深入理解 Calibration 的性质,为了使我们的研究具有广泛意义,我们聚焦于 NATS-Bench 搜索空间上的 117,702 个独立的 CNN,我们选取了 3x6466=19398 个独特架构网络(TSS),并让每个模型在这些数据集上训练了 200 个 epoch。
此外,我们还关注了 3x32768=98304 个不同大小的网络架构(SSS),每个网络也在同样的数据集上完成了 90 个 epoch 的训练。这些网络均在 CIFAR-10, CIFAR-100 和 ImageNet16-120 完成了训练和测试。
为了确保我们的研究成果具有广泛性,我们引入了多样的 ViT 模型和人工设计的 CNN。包括但不限于 ResNet、T2T-ViT、ViT-b-16、Swin-T、Deit-T、Cait-XXS24、PvTv2-T 及 PoolFormer-S12 等。这些模型都在 CIFAR-10, CIFAR-100 和 ImageNet-16-120 上进行了 60 个 epoch 的精细调校,基于在 ImageNet-1k 上的预训练权重。
在 Calibration 度量指标方面,我们采用了基于不同 bin 大小(如 10, 15, 20, 25, 50, 100, 200, 500)的度量指标,加上 12 个其他类型度量指标,总共涵盖了 102 个不同的测量维度。这样全面的评估方法保证了我们 Calibration 评估的可靠性和全面性。
在 OOD 数据集的评估上,我们选取了 CIFAR-10-C 和 SVHN 数据集进行深入分析,旨在更全面地理解模型 Calibration 的属性。
实验结论
2.1 Calibration是否能跨不同数据集generalize?
通过对 19398 个模型的 Calibration 表现做 Kendall ranking correlation,我们构建了一个关于 CIFAR-10(ECE_C10)、CIFAR-100(ECE_C100)和ImageNet(ECE_IN)的 ECE 相关矩阵,覆盖了高准 Accuracy 模型(左侧,19398 个模型中的 Top1000)和所有模型(右侧),如下图所示:
我们发现 Calibration 指标的 ranking 系数存在显著变化。这一现象表明,特定模型的 Calibration 性能与评估数据集之间的关系可能很弱或不存在。换句话说,在 cifar10 上 Calibration 表现好的模型,在 ImageNet 上很可能表现很差。因此,在根据 Calibration 选择合适的模型时,研究者不能仅依赖于该模型在一个数据集上的表现。
2.2 Robustness是否可作为Calibration的一个标准?
传统观点认为,一个 Calibration 良好的模型应在 OoD 任务上表现优异。为了验证这一观点,我们关注了模型 ECE 和多种 robustness 指标之间的 kendall ranking correlation。我们对前 1000,2000,3000..... 准确度的模型均进行的相关系数计算,结果如下图所示:
从图中我们可以看出,Calibration 的表现只有当模型具有比较高的 prediction accuracy 的时候才会和一些 robustness 指标一致,比如 robustness accuracy on the corruption dataset。但 OoD 任务上的 AuC 指标并不能有效评估模型的 Calibration 表现。
2.3 Calibration度量指标的可靠性如何?
我们的目标是探究 Calibration 度量指标的有效性,以及它们的结果是否普遍一致。这项研究的目的在于研究不同 Calibration 度量指标,是否存在显著差异。我们利用 kendall ranking correlation 来衡量这些 Calibration 度量指标之间的相关性。
如图所示,无论指标类型如何,大多数 Calibration指标的排名趋势都是一致的。尽管多项研究指出了 ECE 的缺点,ECE 与大多数指标显示出一致的趋势。
值得注意的是,classwise 指标,如 cwCE(classwise ECE equal width)和 cwCEem(classwise ECE equal mass),在与其他度量的相关性方面表现较差,其中 cwCEem 甚至在 ImageNet 上与其他指标呈负相关。这表明 cwCEem 可能并不可靠。

2.4 Post hoc Calibration方法是否对所有模型均有统一效果?

近期研究表明,Regularisation 通常能帮助模型生成更准确、更好 Calibration 的效果,但可能使得模型 less calibratable。换句话说,Regularisation 使 Post Hoc Calibration 技术(如 temperature-scaling)的 Calibration 空间较小。然而,这一观察基于的案例数量有限。我们的数据集为这一问题提供了更全面的解答。
为了调查这一问题,我们计算了 pre-temperature-scaling-ECE(pre ECE)和 post-temperature-scaling-ECE(post ECE)之间的kendall ranking correlation。
如图所示,pre-ECE 和 post-ECE 之间的相关系数几乎为零,这表明 pre ECE 好的模型,在经历 Post Hoc Calibration 方法后,不一定 post ECE就会更好,同样的,pre ECE 差的模型,或许在经历了 Post Hoc Calibration 后,Calibration 效果会变得很好。
2.5 Calibration与Accuracy之间是如何相互作用的?
Accuracy 与 Calibration 之间的相互作用并没有被充分探索。尽管一些先前的研究暗示了 Accuracy 与 Calibration 之间可能存在潜在的 tradeoff,但这些发现不具普遍一致性。
我们为 CIFAR-10 上所有 TSS 模型和高 Accuracy 模型创建了 ECE 与 Accuracy 的散点图。如图所示,当仅考虑 Accuracy 超过 90% 的模型(如左侧图所示)时,显现出一个明显的趋势:Accuracy 与 Calibration 呈正相关。然而,当考虑所有 TSS 模型时,这种现象并不明显。
2.6 Calibration度量指标Bin的数量设置对Calibration测量的影响有多大?
为了解答这个问题,我们评估不同 bin 数量大小的 bin based 指标在 temperature-scaling 前后的表现。
我们发现无论是 temperature-scaling 前还是后的 ECE,都与 bin 数量呈正相关。除此之外,Bin 数量对 temperature-scaling 后的 ECE 有更大的影响。
2.7 哪些模型架构设计有利于Calibration?
接下来, 我们讨论不同模型设计对 Calibration 性能的影响。
左侧图表展示了在 ImageNet 上不同模型大小的 ECE 表现,而右侧则是 CIFAR-10 的效果。结果表明,Calibration 性能在不同数据集下呈现出不同的变化趋势。因此,更大的模型并不一定有较差的 Calibration 性能,这在很大程度上取决于模型的大小以及数据集的复杂性。更多关于模型细节和数据集的分析可以在我们的论文中找到。
作者介绍
陶林伟
悉尼大学在读博士生,研究方向为深度神经网络的置信度校准。
个人主页:https://www.taolinwei.com
Chang Xu
悉尼大学副教授,正在招收博士生/博后,研究方向为计算机视觉、深度学习等。
个人主页:http://changxu.xyz
Minjing Dong
香港城市大学助理教授,正在招收MPhil/PhD学生,研究方向为深度神经网络的鲁棒性、可解释性等。
个人主页:http://minjingdong.info
更多阅读
#投 稿 通 道#
 让你的文字被更多人看到 
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected] 
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·
·
·
继续阅读
阅读原文