点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

添加微信:CVer5555,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

在这里和大家分享一波我们TMI 2024中稿的工作 “Harvard Glaucoma Fairness: A Retinal Nerve Disease Dataset for Fairness Learning and Fair Identity Normalization”
在本次工作中, 我们提出了第一个研究医疗算法的公平性的眼科数据集 并且提出了Fair Identity Normalization的方法尝试提升不同组别的公平性 (让不同组别的准确率接近)。
文章: https://arxiv.org/pdf/2306.09264
代码地址: 
https://github.com/Harvard-Ophthalmology-AI-Lab/Harvard-GF
数据集网站:
https://ophai.hms.harvard.edu/datasets/harvard-gf3300/
数据集下载链接: 
https://drive.google.com/drive/u/1/folders/1-38HdWTqR4RH5GYT4bBtYu5ADUTN98Gk
Harvard-Ophthalmology-AI-Lab 致力于提供高质量公平性数据集,更多公平性数据集 请点击lab的数据集主页:
https://ophai.hms.harvard.edu/datasets/
背景:
公平性在机器学习中对社会福祉至关重要,但公共数据集的有限性限制了其进展。目前,没有专门的公共医疗数据集带有影像数据用于公平学习,尽管少数群体患有更多的健康问题。为了填补这一空白,我们介绍了Harvard Glaucoma Fairness  (Harvard-GF) 数据集,这是一个包括3300名受试者的视网膜神经疾病 (青光眼)数据集,含有2D和3D图像数据,并且在种族群体的样本数量上实现了平衡,用于青光眼检测。青光眼是全球导致不可逆致盲的主要原因,黑人患青光眼的比例是其他种族的两倍。我们还提出了一种公平身份归一化(FIN)方法,以平衡不同身份群体间特征的重要性。我们的FIN方法与各种最新的公平学习方法相比较,在种族、性别和族裔公平任务中以2D和3D医学图像数据展示了优越的性能,证明了我们的数据集Harvard-GF在公平学习中的实用性。为了促进不同模型间的公平性比较,我们提出了一个公平性加权性能衡量方法,这可以灵活地用于在公平性背景下比较所有种类的性能指标。    
本文介绍了名为Harvard Glaucoma Fairness (Harvard-GF)的新医疗数据集来研究医疗AI算法的公平性,旨在促进AI自动青光眼诊断的公平性。Harvard-GF数据集专注于视网膜神经纤维层(RNFL),因为青光眼是全球主要的不可逆盲原因。这个数据集解决了目前公平学习领域面临的一些主要挑战,包括公共数据集的数量和质量有限,特别是缺乏适用于创建需要成像数据的公平计算机视觉模型的数据集,以及在医疗和健康领域的公平数据集特别缺乏。表1展示了迄今为止只有少数公开的公平数据集在至少三篇出版物中被使用过。这些数据集大多由表格数据组成,这使得它们不适合用于创建需要成像数据的公平计算机视觉模型。   
Harvard-GF数据集的主要特点包括:
  • 它是第一个专门用于医学成像深度学习研究的公平性数据集。
  • 数据集中包含了来自三个主要种族群体(白人、黑人和亚洲人)相等数量的受试者,这避免了可能混淆公平学习问题的数据不平衡问题。
  • 提供了2D和3D成像数据,这为3D公平学习提供了未被充分探索的研究机会。
此外,论文还提出了一种公平身份归一化Fair Identity Normalization方法,通过可学习的均值和标准差按身份群体(如种族和性别群体)归一化模型的特征空间,旨在平衡深度学习模型中不同身份群体间的特征重要性。这种方法与当前最先进的公平学习方法进行了比较,展示了Harvard-GF数据集在公平学习中的实用性和提出的Fair Identity Normalization的有效性。   
为了促进不同模型间的公平比较,文章还提出了一种基于公平性的性能衡量方法,这种方法考虑了准确性与公平性之间的权衡,能够灵活用于在公平性背景下比较所有种类的性能指标,如AUC和Accuracy。图1揭示了当前公平性指标(如DPD和DEOdds)可能不足以充分考虑准确性与公平性之间的权衡。图1展示了当模型对所有身份群体都有同样低的准确性,也可能被认为具有高公平性,但这种现象是DPD和DEOdds无法反映的。
总结,该论文的核心贡献包括了:
  • 提出了首个具有2D和3D医学成像数据的专用于研究公平性的数据集。
  • 开发了一种新的公平身份归一化Fair Identity Normalization方法,以改善模型间不同身份群体特征重要性的平衡,提高深度学习模型公平性。
  • 设计了一种新的基于公平性调整的性能评估指标,以惩罚模型的公平性水平。
如何获得公平性数据集:
数据涵盖2010至2021年,来源于一所大型学术眼科医院,包括三种主要类型:OCT扫描、患者人口统计数据和基于视野测试的青光眼诊断。
OCT扫描提供用于诊断青光眼、黄斑变性等眼病的先进3D成像,强调从这些扫描中派生的用于评估青光眼的2D视网膜神经纤维层厚度(RNFLT)图。这些图以200×200像素的分辨率覆盖光盘周围6×6mm^2的区域,显示RNFLT范围从0到350微米。包括高质量扫描(信号强度≥6)。
患者人口统计数据侧重于确保研究中的种族公平,从每个种族组中等量选取受试者,详细记录了年龄、性别、种族、民族、语言能力和婚姻状况。
青光眼诊断依赖于24-2视野测试,仅选择按照临床标准认为可靠的测试。
哈佛-GF数据集包括3300名受试者,其中1748名被诊断为青光眼,分为训练集(2100个样本)、验证集(300个样本)和测试集(900个样本)。数据集确保来自三个种族组(亚洲人、黑人、白人)各1000个样本,并强调平均年龄、RNFLT值和视力损失严重度。
重要发现包括黑人相比白人和亚洲人青光眼患病率更高,黑人还表现出更薄的RNFLT和更严重的视力损失。性别方面,男性的RNFLT更薄,视力损失更严重,尽管性别之间的青光眼患病率没有显著差异。   
研究中的图表展示了OCT扫描与RNFLT图之间的关系、人口统计分布以及不同种族和性别组中青光眼患病率、RNFLT和视力损失的差异,专注于对种族和性别的公平学习。         

提升公平性的方法Fair Identity Normalization.:
用于评估公平准确性的Equity-Scaled Metrics:
这种公式确保ES-AUC始终小于或等于I。随着群体间的分类性能平等,ES-AUC趋于传统分类metric。相反,较高的群体间的分类性能差异,导致较低的ES-AUC得分。这种方法允许我们评估深度学习模型不仅在准确性(通过AUC, Accuracy等metric)上,而且在不同群体间的公平性上。这使得ES-AUC评分函数成为确保医学成像任务分类准确性和公平性的关键指标。
实验:


总结
尽管少数族裔群体面临更多健康问题,但目前尚无专门的含有医学影像数据的数据集可用于公平学习,深度学习在很大程度上依赖于影像数据。本文介绍了Harvard-GF数据集,这是一个用于检测青光眼的视网膜神经疾病数据集 同时具有2D和3D数据,旨在实现公平学习。我们提出了一个公平性方法(FIN),通过平衡不同身份组之间的特征重要性来提高模型的公平性,并且其性能优于多种现有SOTA公平模型。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集
Mamba和医学影像交流群成立
扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba和医学影像微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba或者医学影像+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!
扫码加入星球学习
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看

继续阅读
阅读原文