作者 | Matthew Stewart 
译者 | 盖磊
策划 | 李冬梅
机器学习的公平性问题近几年受到越来越多的关注,该领域出现了一些新的进展。机器学习训练在涉及到性别、种族等与人相关的敏感属性时,常常会由于统计性偏差、算法本身甚至是人为偏见而引入歧视性行为。由此,为消除差别影响,改进机器学习公平性,主要途径包括提高训练数据集质量、改进算法降低对敏感属性的依赖以及定义指标量化和衡量歧视程度。本文分析了算法歧视的致因,侧重于数据问题给出了公平性的定义,介绍了统计均等等度量指标。文章也指出,各种算法公平性定义指标法都有其优缺点,并无法就公平性达成共识。因此,算法公平性并不能直观看成一种数学或计算机科学问题。本文的目的是使广大读者切身理解根植于机器学习算法中的不公平性。为此,作者力图以易于理解的方式阐释概念,避免使用数学表达。希望每位读者都能从阅读本文受益。
本文首发于 Medium 网站,经由原作者授权,InfoQ 翻译并分享。
“做好人容易,但做到公正不易”——维克多·雨果,法国文学家
“我们需要捍卫那些我们从未谋面、甚至永远不会谋面的人的利益。”——Jeffrey D. Sachs,美国经济学家
有监督机器学习算法在本质上是判别性的。这种判别性的根源,在于算法是根据嵌入在数据中的特征信息进行实例分类的。的确,现实中此类算法就是设计用于分类的。判别性同样体现在算法的命名上。有别于根据特定类别生成数据的“生成算法”,此类对数据分门别类的算法通常称为“判别算法”。使用有监督的机器学习时,这种“判别”(discrimination,也可表述为“歧视”、“区别对待”)有助于按不同分布将数据划分为不同类别,如下图所示。
对任一数据集应用任何一种判别算法,无论是支持向量机、普通线性回归等参数回归算法,还是随机森林、神经网络、Boosting 等无参数回归算法,输出结果本身在道德上并不存在任何问题。例如,可以使用上周的天气数据去预测明天的天气,这在道德上毫无问题。然而,一旦数据集涉及对人类相关信息的描述时,无论是直接的还是间接的,都可能无意中导致特定于群组从属关系的某种歧视性。
人们已经认识到,有监督学习算法是一把双刃剑。它可以迎合人们的利益,例如提供天气预报等信息服务,或是通过分析计算机网络,检测攻击和恶意软件进而起到防护作用。但从另一方面看,它在本质上也会成为在某一层面上实施歧视的武器。这并不是说算法的所做所为是邪恶的,它们仅仅学习了数据中的表示,但这些表示本身可能融入了历史偏见的某种具体呈现,或是某个人的好恶和倾向性。数据科学中常说的一句习语就是:“垃圾入,垃圾出”,意思是模型高度依赖于所提供的数据质量。在算法公平性的场景中,可类似地表述为:“输入有偏差,则输出有偏差”。
数据原教旨主义
数据原教旨主义(data fundamentalism)拥趸者甚众。他们认为,通过对数据的经验观察,可以反映出世界的客观真相。
“数据足量,其义自见。”——Chris Anderson,《Wired》前主编,也是一位数据原教旨主义者。
数据和数据集并非客观的,而是人类设计的产物。人们赋予数据以表达,从中推理,并以自身的解释去定义数据的内涵。隐藏在收集和分析阶段的偏见带来了很大的风险,它们对大数据等式的影响和数字本身是一样的。”——Kate Crawford,微软研究院社会媒体组首席研究员
原教旨主义者的假设从表面看似乎合情合理。但 Kate Crawford 在《哈佛商业评论》( Harvard Business Review ) 撰文给出了一个很好的反驳:
“波士顿市存在着坑洞的问题,每年需修补约两万个坑洞。为有效地配置资源,波士顿市政府发布了一款很好用的智能手机应用 StreetBump。该应用利用智能设备的加速度计和 GPS 数据,以非主动方式探测坑洞,然后立即上报市政府。虽然该应用的理念非常好,但存在一个明显的问题。美国低收入人群拥有智能手机的可能性较小,尤其是一些老年居民。此类人群的智能手机普及率可低至 16%。对于波士顿这样的城市而言,意味着智能手机数据集中缺少了一部分重要人群,通常是那些底层生活者。”——Kate Crawford
从本质上看,StreetBump 应用获取的数据主要来自相对富裕社区,来自相对贫困社区的数据则较少。这会导致人们的第一感觉是,相对富裕的社区存在更多的坑洞。但事实上,是因为来自于相对贫困社区的数据不足,社区居民不太可能具有智能手机去下载 SmartBump 应用。通常情况下,对结果产生影响最大的,正是数据集中缺失部分的数据。上面的例子很好地展示了一种基于收入的歧视。因此,在基于数据给出结论时,我们需要谨慎,因为数据中可能存在着“信号问题”。这种信号问题常被称为“采样偏差”。
另一个很好的例子是“替代制裁的罪犯矫正管理分析”算法(Correctional Offender Management Profiling for Alternative Sanctions),简称为 COMAS。COMAS 算法被美国许多州采用去预测累犯,即曾经犯过罪的人再次犯罪的可能性。但调查新闻机构 ProPublica 的分析表明,该算法存在对美国一些受保护阶层的种族歧视问题,这引发了广泛争议。为说明问题,预测累犯的算法可概要描述为:
累犯风险评分 = (年龄 -w )+(首次被捕年龄 -w )+(暴力历史 * w )+(职业教育 * w )+(违法历史 * w )
其中 w 是权重值。很明显,预测器并未使用种族作为特征变量,但是基于美国历史上的不公,以及人口统计、社会、执法统计数据等因素看,“暴力历史”、“职业教育”等变量的数据分布在不同种族间存在着显著差异。而执法统计数据也同样倍受争议。警察巡逻的街区通常也是使用算法确定的,而算法使用了数据分布上的差异,引入了种族间的差异,进而在某种程度上导致结果偏向或是不利于某个种族。这些根深蒂固的偏见通过算法得以实施后,将继续维持这一结果,导致进一步的不公平。这样的循环从本质上看形成了“自证预言” (self-fulfilling prophecy)”,即:
历史不公正 → 训练数据 → 实际应用中的算法偏差
由此引发了一系列的棘手问题。我们是否应该删除那些存在问题的变量?如何确定某个特征会导致歧视性结果?是否需要设计一个能给出“歧视性”阈值的指标?一个极端的做法是删除近乎所有变量,这将导致算法无所适从。尽管解决问题的前景看上去不甚明朗,但幸运的是总会有办法的。本文随后将进行阐述。
上面给出的例子并非一些孤立事件。同样,乳腺癌预测算法也会呈现出一定程度上的不公平歧视。研究提出对乳房 X 光成像使用深度学习算法预测乳腺癌,但对黑人女性的准确率要低于白人女性。这在一定程度上是因为用于训练算法的数据集主要基于白人女性的乳房 X 光成像,以及黑人女性和白人女性间的乳腺癌数据分布可能存在很大差异。据美国疾病控制中心的研究表明,“黑人女性和白人女性患乳腺癌的比例大致相同,但黑人女性死于乳腺癌的比例要高于白人女性。
研究动机
由此引发了算法开发人员的动机问题。设计模型的人是否存在故意性?他们是否故意夹带私货,并将其隐藏在不透明的机器学习模型中?
尽管对该问题无法确定地给出是或否的回答,但在提出问题时,一个好的做法是考虑汉隆剃刀(Hanlon's razor)原则:
“能解释为愚蠢的,就不要解释为恶意。”—— Robert J. Hanlon
换句话说,谢天谢地这个世界上并没有那么多恶人,恶人肯定要少于不称职的人。合理的假设是,当事情出错时,更可能是由于无能、天真或疏忽,而非完全出于恶意。虽然可能有一些恶意行为者想要推行歧视性做法,但这些人毕竟是少数。
基于上述假设,那么问题出在哪里?有人提出,对于能控制和纠正歧视的有监督学习算法,统计学家、机器学习实践者、数据科学家和计算机科学家并未受过相应的专业开发培训。
那么为什么会这样?
事实上,目前相关的专业技术培训并不存在。公平性是机器学习领域的一个新兴分支。由于机器学习在过去数年中迅速融入社会的方方面面,公平性问题受到了越来越多的关注。与医生等职业不同,计算机科学家并不一定会接受训练,学习考虑自身行为的道德影响。直到最近,也有人说是随着社交媒体的出现,计算机科学家的设计和创造才体现出伦理层面上的问题。
事实上,大多数计算机科学期刊在提交论文时,并不要求一并给出道德声明或考虑。如果论文中使用了包含数百万真人图像的图像数据库,无疑需要考虑道德方面的问题。鉴于物理距离和数据集规模之大,计算机科学家无需考虑对个体的影响,这可以被认为是微不足道的,进而对此忽略不计。不同于此,社会学家和心理学家在对小组个体开展测试时,必须成立完整的伦理审查委员会去审查和批准实验,以确保研究不会跨越任何伦理界限。
好的一面是,事情正在逐渐改变。越来越多的数据科学和计算机科学项目,开始要求学生参加数据伦理和批判性思维方面的课程。各学术期刊也逐渐认识到,通过机构审查委员会(Institutional Review Boards,IRB)开展伦理审查并在论文中加入伦理陈述,是同行评审过程的必要补充。随着对机器学习公平性关注的与日俱增,上述立场正不断加强。
机器学习的公平性
正如前文所述,有监督机器学习的广泛采用,引起了人们对算法公平性的关注。随着算法的广泛采用,对人们生活的控制也会日益增加,人们的担忧也随之加剧。机器学习社区同样十分清楚这些挑战。算法公平性是当前一个快速发展的机器学习子领域,Moritz Hardt、Cynthia Dwork、Solon Barocas 和 Michael Feldman 等优秀的科研工作者已投身其中。
尽管如此,要实现真正公平的算法,仍有一些重要挑战尚待解决。差别处理(disparate treatment)在算法中相对易于避免,即可对不同组显式地执行 差异化处理,例如从数据集中删除对应于种族、性别等特定属性的变量。但避免产生差别影响(disparate impact)则相对困难得多。数据中的冗余编码(redundant encoding)的问题,通常会导致对不同组非显式地执行差异化处理的结果。
冗余编码 根据数据中存在的与种族、性别等受保护属性相关的特征,给出这些属性的信息。例如,网购化妆品等商品与性别属性可能存在高度相关性;根据邮政编码等属性,算法可获取不同种族人口的分布特征。
尽管算法并不会按上述思路进行判别,但对于在模式识别任务上已超越人类表现的数据驱动算法,不可避免地会处理嵌入在数据中的关联,无论这些关联是多么小。此外,如果关联是非信息性的,即不会增加算法的准确性,那么将会被算法忽略。这意味着,受保护的属性中的确嵌入了某些信息。这对研究人员提出了许多挑战,例如:
  • 公平性和准确率之间是否存在本质上的权衡?是否能够从受保护属性(译者注:原文是“特征”)中抽取出关联信息,以免产生歧视性处理?
  • 如何从统计学上测定算法中的“公平性”?
  • 如何确保政府和公司推出能保护个体公平性的算法?
  • 如何判定训练数据中的偏差?如何降低偏差的影响?
下面,本文将展开讨论。
数据中存在的问题
在上一节中提到,冗余编码导致特征与受保护属性间存在关联性。随着数据集规模的不断扩大,产生关联的可能性也相应增加。在大数据时代,这是一个大问题:能够获得的数据越多,可用信息中存在歧视的也就越多。歧视不一定仅限于种族或性别,也可以表现为对粉色头发人的歧视,对网络开发人员的歧视,对星巴克咖啡消费者的歧视,甚至是对各种群组组合的歧视。本节给出几种训练数据和算法中存在的偏差,这些偏差导致创建公平性算法问题复杂化。
多数偏差(The Majority Bias)
算法本身并不会偏向任何特定的群组,但在统计上的确更偏向于多数群组。正如 Moritz Hardt 教授在 Medium 博客文章中指出,分类器通常会随训练数据点数量的增加而改进,因为误差范围与样本数的逆平方根相关。如下图所示。
现实令人不安。少数群组从定义上看通常具有较少的数据,因此模型对少数群组的表现往往差于对多数群组的表现。上述假设只有在多数群组和少数群组是从不同分布中抽取的情况下才能成立。如果二者是从同一分布中抽取的,那么增加样本规模对两个群组同样有利。
一个例子就是前文介绍的乳腺癌检测算法。在这个由麻省理工学院的研究人员开发的深度学习模型中,训练神经网络所用的数据集中包括 6 万张乳房 X 光检查图像,只有 5% 是黑人女性的,这些患者死于乳腺癌的可能性高达 43%。因此,使用该算法对黑人妇女等少数群组进行测试时,性能相对较差。这可部分归因于有色女性乳腺癌通常会在较早期表现出症状,该现象表明差别影响是由于有色女性概率分布的代表性不足而造成的。
这也给出了另一个重要的问题,那就是准确率(accuracy)是否能很好地表示公平性?在上面的例子中,由于对少数群组存在不公平,人们就认为对少数群组的分类准确率也较低。然而,由于公平性在定义上的差别和在性质上的模糊性,很多情况下并不能确保我们的测定值很好地表示了公平性。例如,我们的算法对黑人女性和白人女性的准确率同样可达 50%。但如果对白人女性存在 30% 的误报(假正),对黑人女性存在 30% 的漏报(假负),那么也表明存在着差别影响问题。
就上面的例子而言,由于存在基于群组从属关系的差别处理,我们可以很直接地认为存在某种形式的歧视。然而,有时这种群组从属关系对预测是非常有用的。例如,电子商务网站会试图向不同用户展示特定的内容,因此掌握每个个体的性别、年龄或社会经济地位等信息是非常有用的。这意味着,如果简单地从数据中删除受保护属性,就会降低模型的准确率,乃至其它一些性能指标。同样,如果具有足够的黑人女性和白人女性乳腺癌模型的相关数据,我们就可以开发一个输入为种族的算法。考虑到种族间在数据分布上存在差异,新算法更有可能提高对不同种族的准确率。
因此,为提高算法的泛化能力,最好应考虑受保护属性;并且为防止产生歧视,算法应受到公平性指标的约束。
该理念是 Moritz Hardt 和 Eric Price 在论文“监督学习的机会均等”(Equality of Opportunity in Supervised Learning)中提出的。机会均等相对于统计均等(Statistical Parity)和补偿几率( equalized odds)等指标更具优势。下面将对上述三种方法分别作出阐释。
“公平性”的定义
本节将介由机器学习公平性研究人员提出的一些概念,包括统计均等,以及与统计均等存在细微差别的机会均等(equality of opportunity)和补偿几率等指标。
统计均等(Statistical Parity)
统计均等是历史最悠久、也是最简单的强制公平性指标。在 arXiv 预发表论文“算法决策和公平性代价”(Algorithmic decision making and the cost of fairness)中,详细阐释了统计均等概念。统计均等的计算公式如图 5 所示。
那么应该如何理解统计均等的输出独立于所属的群组?这意味着每个群组的同一部分被分类为正或负的机会是均等的。由此,统计均等也被称为“群体均等”(demographic parity)。对于所有归入 p 的群组,会强制执行统计均等。
对于未使用统计均等的数据集,可使用图 6 公式计算统计均等距离(statistical parity distance),给出预测偏离统计均等的程度。
统计均等距离提供了一种基于组群从属参数 p 衡量数据集公平性的指标。
那么使用统计均等存在哪些权衡考虑?
首先,统计均等并不能确保公平性
大家可能已经注意到,统计均等并不反映预测的准确率。如果一个群组预测为正的概率高于另一个群组,那么两个组在假正率和真正率上可能给出很大的差异。这本身就造成了差别影响,即偏向一个组(p=1)中的不合格个体,就可能会遗漏另一个组(p=0)中的合格个体。从这个意义上说,统计均等更类似于“结果均等”(equality of outcome)。
下图给出很好的展示。如果有两组人,一组有 10 人(称为“A=1”组),另一组有 5 人(称为“A=0”组),如果给定“A=1”组中有 8 人得分 Y=1(80%),那么无论如何“A=0”组中也必须有 4 人得分 Y=1(80%)。
第二,统计均等降低了算法准确率。
统计均等的第二个问题是,尽管受保护属性可能会给出一些对预测有用的信息,但受限于统计均等的严格规则而无法得以利用。例如,性别对预测人们的意向购买商品非常有用,无法使用它将导致模型变弱,准确率也会受到影响。好的方法应能在不产生差别影响的情况下考虑群组间的差异。显然,统计均等并不符合准确率这一机器学习的根本目标。一个好的分类器可能并无法确保统计均等。
鉴于以上问题,多位机器学习公平性研究人员认为,统计均等并不是一个可信的指标。但统计均等可作为构建其它公平性指标的基本出发点。
还有一些与统计均等存在细微差别的指标,包括真正均等(true positive parity)、假正均等(false positive parity)和正率均等(positive rate parity)等。
真正均等(True Positive Parity,TPP)
真正均等也称为“机会均等”(Equality of Opportunity),仅适用于二分类预测。真正均等对 TP 类执行统计均等,即预测输出 1 并且真正输出也是 1 的情况。
真正均等确保两组中的所有合格个体(Y=1)被分类为合格(C=1)的比率均等。如果只关注输出为正是否均等,可使用真正均等。
假正均等(False Positive Parity)
假正均等也仅适用于二分类预测,侧重于 FP 类,即预测输出为 1 但真实输出为 0 的情况。它类似于真正率(true positive rate),但提供 TP 类输出的均等。
正率均等(Positive Rate Parity)
正率均等也称为“均等几率”(Equalized Odds),它同时组合了 TP 类和 FP 类的统计均等。
  • 注意:对机会均等,我们放宽了在“Y=0”的情况下几率必须相等的均等几率约束。均等几率和机会均更灵活,能够在不产生差别影响的情况下添加一些受保护变量的信息。
尽管上述指标都给出了某种可认为是公平的解决方案,但都不是特别令人满意。原因之一在于对公平性究竟意味着什么存在许多相互冲突的定义,很难以算法的形式给出定义。这些方法提供了不错的出发点,但也仍存在很大的改进空间。
增加公平性的其它方法
统计均等、均等几率和机会均等作为公平性指标提供了很好的出发点。此外,还有其他一些确保算法的使用不会对个体产生过度歧视的方法。人机共生(human in the loop,HITL)和算法透明(Algorithmic Transparency)是目前提出的两种主要解决方案。
人机共生
这个名字听上去像是某种过山车,其实表示的是由人类监督算法过程的一种范式。人机共生通常适用于算法出错风险高的情况。例如,导弹探测系统在探测到对方发射导弹后,需通知军方以进行人工审核并确定响应方式。如果没有人工交互,算法就不会做出响应。想象一下使用人工智能运作核武器系统的灾难性后果。一旦系统发现威胁就有权开火,那么一个误判就会导致整个世界毁灭。
另一个例子是判定累犯的 COMPAS 系统。系统并不会因为将某人分类为累犯就做出相应法律判决。相反,系统会由法官审核 COMPAS 的评分,并以此作为情况审核中的考虑因素。这提出了一个新的问题,人类应该如何与算法系统交互。一些使用亚马逊土耳其机器人(Amazon Mechanical Turk,MTurk)众包平台开展的研究表明,部分人会完全遵循算法的判断,因为他们认为算法比人类掌握更多知识;而其他人则对算法的输出持半信半疑的态度,还有些人甚至会完全忽略算法的输出。人机共生研究是一个相对较新的研究方向,但随着机器学习在社会中的不断普及,在此方向上将会看到更多发展。
另一个重要的类似概念是人为监督(human-on-the-loop),它类似于人机共生,只是人并非积极地参与过程,而是被动参与对算法的监督。例如,数据分析人员负责监控油气管道的各个部分,以确保所有传感器和流程都能正常运行,避免出现需关注信息或发生错误。其中,分析人员只是处于监督状态,并不主动参与过程。“人为监督”需要人的参与度更低,因此比“人机共生”具有更好的可扩展性。但并不适用于某些情况,例如监控核导弹。
算法透明度
在一些正式文献中,实现公平性的主流方式是通过透明度实现算法的可理解性(interpretability)和可解释性(explainability)。文献提出,如果算法能够得到公开观察和仔细分析,则可高置信度地确保模型中不存在差别影响。虽然在许多层面上确实可实现算法透明度,但其中也存在着一些不足。
一些观点认为:专有算法从定义上就是不透明的
从商业角度看,透明性在很多情况下并不适用。如果企业向所有人提供了自己的算法和业务流程,那么可能会泄露商业秘密或专有信息。想象一下,Facebook 或 Twitter 被要求向全世界公布他们的算法,以便接受审查确保不存在歧视问题。这样任何人都可下载他们的代码,然后启动自己版本的 Twitter 或 Facebook。完全透明只是政府(在某种程度上)、医保、法律体系等公共服务使用的算法中需考虑的一个因素。鉴于法律体系是法律学者的主要关注点,因此有理由认为这一点依然是目前的共识。
展望未来,对那些想对自身已投资的算法保密的私有企业而言,颁布算法公平性相关的法规,是比实现算法透明度更可靠的解决方案。Andrew Tutt 在论文“An FDA For Algorithms”中对此理念进行了探讨,并提出组建类似于 FDA 的监管机构去规范算法。算法可以提交给监管机构,或者是第三方审计服务,进行分析以确保它们的适用性,以及不会产生差异影响。
诚然,实现透明度仍需进行大量的探讨、投入大量的资金,并拓展相关的专业知识。但在我看来,透明度解决方案似乎可行。要确保算法免受差别处理和差别影响的干扰,依然有很长的路要走。随着法规、透明度、人机共生、人为监督,以及新提出的统计均等改进方法的综合使用,情况正在得到改进。但公平性这一研究领域仍然处于起步阶段,还有许多工作要做。该领域值得关注。
结束语
本文了详尽阐释了存在于训练数据集中的多种偏差,这些偏差是由于训练数据的收集和分析方式所导致的。进而给出了几种降低偏差影响的方法,以确保算法不会对少数群组和受保护阶层产生歧视。
机器学习在本质上存在某种形式的统计性歧视。并且一旦将某些特权群组置于系统性的优势地位,而将某些非特权群组置于系统性的不利地位,那么这种歧视就会变得令人反感。由于存在于标签上的偏见、欠采样或过采样,导致训练数据中存在偏差,模型也会存在不为人需的偏差。
有些人提出,决策是由人们基于部分信息做出的,而决策者所做的决策可能会受自身存在的许多隐含的和认知上的偏差的影响。而决策的自动化给出了更准确的结果,在很大程度上限制了偏差的影响。这些算法无需十分完美,只需优于以前使用的算法。历史发展终究会曲折地走上正轨。
也有人提出,算法就是要放任不公平或数据本身固有的偏差得以系统性的体现。为缓解这些问题,应从数据中删除涉及受保护属性的变量,剔除所有的相关变量或是加以限制。
上述两种做法都是部分正确的。然而,我们不应该满足于不公平的算法,毕竟其中存在着改进空间。同样,我们不应该浪费已拥有的所有数据,删除所有变量,因为这将使导致系统表现变差,降低它们的用处。这就是说,最终还是需要算法的创建者、监管机构,以及负责收集数据的机构,尽力确保这些偏差得到适当的处理。
数据的收集和抽样过程通常是统计教学中最枯燥的部分,并且公众对此认知不足。在监管机构得以介入之前,需确保机器学习工程师、统计学家和数据科学家将机会均等付诸机器学习实践中。我们必须关注数据的来源以及处理方法。谨记,前人种树,后人乘凉。
作者介绍:
Matthew Stewart,哈佛大学数据科学博士,机器学习顾问。
原文链接:
https://towardsdatascience.com/programming-fairness-in-algorithms-4943a13dd9f8

你也「在看」吗?👇
继续阅读
阅读原文