©PaperWeekly 原创 · 作者 | Xiaowei Qian
单位 | 电子科技大学
引言
公平图学习(Fair Graph Learning)在社交网络分析、推荐系统、信用评级等众多实际应用领域中发挥着重要的作用。然而我们发现,评估公平图学习模型所依赖的数据集存在诸多缺陷,并且评估设置也缺乏规范。为更好地评估公平图学习模型,我们推出了一系列新数据集,并为公平图学习模型建立了统一的评估方法。
论文题目:
Addressing Shortcomings in Fair Graph Learning Datasets: Towards a New Benchmark
论文链接:
https://arxiv.org/pdf/2403.06017.pdf
GitHub仓库链接:
https://github.com/XweiQ/Benchmark-GraphFairness
统一评估设置
与传统的节点分类任务(模型在验证集上的精度趋于稳定时停止训练)不同,公平图学习模型还必须考虑准确性和公平性的权衡。为了实现这一目标,现有的方法各自为其模型设计了 early-stopping 策略。目前多样的评估设置存在以下问题:
1. 难以确定观察到的结果差异是由模型固有的算法质量导致,还是所采用的特定 early-stopping 策略的结果评估不同公平图学习模型时,每个模型采用其固有的 early-stopping 策略,这使得准确评估这些模型的过程变得复杂。
例如,niftyGCN 在 German 数据集上采用不同的 early-stopping 策略训练,会导致评估结果出现较大的差异。这说明不同模型采用不同 early-stopping 策略是不公平的,我们需要在评估中采用统一的 early-stopping 策略。
部分 early-stopping 策略没有有效进行准确性和公平性之间的权衡。此外,一些 early-stopping 策略依赖于手动设置的阈值,这对于在不同数据集上进行大量实验无疑是困难的。
以上问题说明,实现一致且公平的 early-stopping 策略对于公平图学习方法的基准是必不可少的。
因此,我们提出了新的 early-stopping 策略,并在后续实验中统一设置。该策略平衡了准确性和公平性,并采用了自适应阈值。
现行数据集缺陷
半合成数据集(Semi-synthetic Datasets)
现有半合成数据集,如:German、Credit、Bail,其中点的连接是基于特征相似性构建的。这样构造的图难以为预测提供额外的信息。我们的实验结果表明,在半合成数据集上,不利用图结构的 MLP 的总体表现比 GCN 和以公平性为重心的 GNN 方法(包括 NIFTY 和 FairGNN)的要更好
此外,MLP 不仅实现了更高的性能,而且还在这些半合成数据集上保持了更高的公平性指标。这样的结果说明现有的半合成数据集并没有提供有效的图结构,不能很好地评估公平图学习模型。
真实世界数据集(Real-world Datasets)
在一些特定的现实世界数据集上,如 Pokec、NBA,GCN 对于图结构的使用不会引入明显的额外偏差GCN 和 MLP 达到相当水平的公平性指标说明了这一点。
这些实验发现强调了当前用于评估公平图学习模型的数据集的关键问题——数据集中的图结构不能有效地带来额外的信息(包括准确性的提升和偏差的放大)。这些数据集没有提供必要的挑战来体现公平图学习模型的复杂机制能够带来比基本模型更高的价值。

新的公平图学习数据集

4.1 设计原则

图结构的有效性(Graph Structure Utility):图结构必须能明显提高预测性能,即对预测任务有帮助。

图结构放大偏差(Bias Amplification through Graph Structure):图结构应该放大偏差信息,才能有效比较不同公平图学习方法的性能差异。

以上设计原则确保只有善于利用图结构,同时减轻其固有偏差的模型才能在评估中脱颖而出。因此,仅基于特征而不利用图结构、以及忽略图结构中存在偏见的模型将面临挑战。这样的数据集可以推动以公平为导向的模型创新,而不仅仅是识别和纠正广泛存在的偏见。
4.2 构建数据集
基于这些原则,我们设计了一系列数据集——从合成数据集(synthetic datasets)开始,研究者可以控制数据的有效性和偏差,然后过渡到新的半合成数据集(Semi-synthetic Datasets),最后在真实世界的数据集(Real-world Datasets)上评估模型,以提供现实的测试场景。
这种渐进式基准测试方法可以对数据集真实性的不同阶段的模型能力进行全面评估,确保在现实应用中的鲁棒性和有效性。
4.2.1 Synthetic Datasets & Semi-synthetic Datasets
▲ 基于生成边概率的分析框架
为设计合成数据集以及增强半合成数据集,我们提出了一个分析框架(如上图所示)以探索边生成概率和公平性度量之间的相互作用。我们聚焦于二进制敏感属性和二进制标签的场景——其中边的概率直接影响不同群体的预测准确率,随后影响公平性指标。这一过程分为两步:
  • 从边的生成概率到群体准确率(Group Accuracy):生成边的概率与特定群体的准确率之间的相关性如上图所示。例如,如果我们固定其他连接的边生成概率,并增加边 的概率,我们预计 群体的准确率会有所提高。这一步提供了一种基于 edge generation dynamics 预测群体准确率的方法。
  • 从群体准确率到公平性指标公平指标,如统计均等()和机会均等(),是评估公平性的关键。 衡量预测概率的差异,而 评估各群体之间的准确性差异。通过检查不同组的准确性,我们深入了解了这些公平指标的潜在变化,提供了一个直接的策略来评估和提高模型预测的公平性。
我们基于以上分析框架设计了合成数据集,并对现有的半合成数据集进行了分析和修改:
  • 我们设计了一套公平图学习数据集生成的步骤流程(in Section 4.1.2),并生成了两个合成数据集(Syn-1、Syn-2)作为示例;
  • 现有的半合成数据集因为其不同种类边的比例不合理,导致图结构对模型的预测性能有害。我们通过调整现有半合成数据集中边的数量,获得了三个新的半合成数据集(in Section 4.1.3)。

4.2.2 Real-world Datasets

我们利用 Twitter 的数据构建了两个新的真实世界数据集(Sport、Occupation),以此观察真实世界数据中图公平性的情况。
有关以上新数据集的更多细节,如:合成过程、修改方式、设置参数等详见论文 Section 4。数据集的信息如下所示:
▲ 新数据集统计信息
新数据集实
基于统一的评估设置,我们在新提出的数据集上进行了一系列实验,旨在探讨以下几个关键问题:
  • RQ1: 数据集的图结构能否提高模型预测性能?
    • MLP 和 GCN 之间的比较显示出了 GCN 准确性的显著提高,体现了使用图结构后模型预测性能的明显增强。
  • RQ2: 数据集的图结构是否带来偏差信息?
    • 基于公平性指标 和 ,对 MLP 和 GCN 性能的分析表明——聚合图结构会导致预测结果的公平性显著降低——虽然使用图结构可以提高模型性能,但也有损害公平性的风险。
    • 公平性为中心的算法的结果表明,在利用图结构来提高精度的同时减少偏差是可行的。
  • RQ3: 数据集能否帮助深入理解常用方法?
    • 任一方法都难以在所有数据集中表现良好,这种情况为开发更高效的公平图学习方法提供了更多机会。

总结

鉴于现有数据集图结构可用性和偏差信息的不足,我们构建了一系列综合数据集以填补这一空白,并引入统一框架评估公平图学习方法。新数据集包含可控偏见参数和有意义的图结构,有助于模型兼顾预测性能与公平性。通过这些数据集系统性的实验,公平图学习模型能得到更好地评估。
更多阅读
#投 稿 通 道#
 让你的文字被更多人看到 
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected] 
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·
·
·
继续阅读
阅读原文