公司、非营利组织,以及政府都会设计算法来学习和预测用户偏好。它们将这些算法嵌入到推荐系统中,帮助消费者做出各种选择,从购买哪种产品、服务到观看哪部电影,再到从事哪份工作。这些算法依靠用户行为来推断用户偏好,在设计中会出现人为的偏差。为了让算法更有效地预测用户偏好,更好地提高消费者福利和社会福利,企业需要考虑这些偏差,用合适的方法来衡量用户偏好。
想象一款新的应用程序,它能彻底改变你的晚餐。它用专有算法为你推荐量身定制的食物。你跃跃欲试,很快就注册了。但推荐的食物并不尽如人意。周一是披萨,周二汉堡,周三炸鸡,周四烧烤,周五炸牛排。困惑之余,你给公司打电话询问情况。他们解释说:“我们的算法会分析你过去点过的食物,选出你的最爱。然后,我们只推荐你最喜欢的食物,不推荐其他食物,于是就有了这个完美的个性化膳食计划。”
这就是算法的构建方式。这就是算法让我们失望的原因。
帮助我们做出最佳决策的算法——指的是将我们与最佳创意、体验、工作、人员和产品联系起来的算法——应该丰富我们的生活。但是,有些算法——比如一些管理社交媒体推荐、分配医疗保健资源和为汽车保险定价的算法——却未能兑现这一承诺。而一些为政府和非营利组织建立的算法,以及由政府和非营利组织建立的算法——例如用于预测犯罪活动和为大学入学考试评分的算法——也没有达到预期的目标。
算法的表现令人失望的核心原因是,辅助和替代人类决策的现代算法(如推荐系统)是建立在用户行为的心理建模之上的。我和同事们发表在《自然·人类行为》杂志(Nature Human Behavior)上的新论文指出,算法的学习对象——即我们的行为——是根本性的制约因素。算法依靠我们的点击、浏览、购买和其他数字足迹来推断我们的偏好。这种“显性偏好”(revealed preferences)可以让算法识别出一些我们不自知的偏好,比如一场黑山之旅、一次在Le Bernardin餐厅的晚餐,或者一部关于西好莱坞一家餐厅的真人秀节目。不过,相较于构成用户真实目标和价值观的“规范偏好”(normative preferences),显性偏好并不能展示用户偏好的全貌,有时还会产生误导。
影响决策的偏见
心理学家和行为经济学家记录了人类在做决策时的许多异常现象。当这些心理偏差影响我们的行为时,算法就会错误地混淆我们的显性偏好和规范偏好。以下是三个例子:
[不假思索地思考]
我们常常缺乏知识、时间、能力或动机来理性地做决定。于是,我们依赖联想直觉和习惯,并受到环境因素影响,比如默认推荐。这些决策策略通常是好的,但也会给我们的决策带来系统性的偏差。根据习惯经验训练出来的算法,可能会学习一些不再被认可的偏好(例如,算法错误地认为,大多数吸烟者都想戒烟)。根据用户行为训练出来的算法会反映出用户的偏见和系统中的结构性不平等,而这些偏见和不平等是不被人们认可的,也可能是隐性的。例如,当亚马逊开发出一种招聘算法时,它从人类的招聘决定中学会了,优先考虑男性候选人而非女性候选人——在被算法揭示之前,这种性别偏见一直没有被察觉。
[互相冲突的欲望]
我们的欲望相互冲突——沉溺于当下还是等待未来,独享还是分享,利用已有知识还是冒险尝试新事物。在做出决定时,算法会根据用户的偏好进行观察和推荐。即使我们渴望更长远的解决方案(“应该做的事”),这些算法也会学习能最快满足我们要求的解决方案(“想要的事”)。比如,Netflix的用户将《行星地球》(Planet Earth)等高雅的电影列入观看清单,但最终却溺爱像《布里奇顿家族》(Bridgerton)这样的肥皂剧,或者像《抽丝剥茧》(Extraction)这样的动作片。
[社会规范与现状]
在亚马逊、YouTube和脸书等平台上,算法会引导我们看到(和购买)与我们相似的人会看到(和购买)的东西。我们依靠推荐系统和榜单(如畅销书)在平台的大目录中选择内容。推荐系统帮助我们找到自己喜欢的东西,但同时也改变了我们的偏好,减少了我们所看到和购买的东西的多样性,增加了一些时下市场中流行的选择。如果没有大量的工程设计,推荐系统就会到处推荐《哈利·波特》,不管是对相关用户(例如,对观看《指环王》的用户)还是对不相关的用户[例如,对购买《掌握法国烹饪的艺术》(Mastering the Art of French Cooking)的用户]。
组织可以采取以下几种措施来建立更有效的算法:
针对人为偏见来审查算法
公司可以使用A/B测试并挖掘内部数据,以揭示用户行为与用户规范偏好何时会出现分歧及其背后的原因。研究人员与一家医疗保健系统供应商合作发现,在提供额外服务时,该组织的算法优先考虑白人患者而非黑人患者,因为医疗保健系统在类似的白人患者身上的花费要高于黑人患者,并将花费作为健康状况的替代指标。此外,美国各市政府使用的、一套指导公共服务投资和延续的市场价值分析算法,也往往会优先考虑黑人和贫困居民较多的社区——部分原因是,该算法包含了房屋拥有率等数据,而以前存在偏见的贷款行为所造成的结构性偏差,对这些数据产生了影响。
即使无法访问公司的内部数据,科学家、政府和非营利组织仍可以通过观察个体用户、检查平台的应用程序接口、使用机器人以及干预研究等,来审查算法是否存在人为偏见。在一项实验中,研究人员付钱让脸书用户停用账户四周,在这四周里,停用账户的用户花了更多时间与家人在一起,并表示感觉更好了。这些结果表明,许多用户在脸书上花费时间是出于习惯,而不是因为他们喜欢脸书或觉得满意。
改进算法设计,使其更能反映规范偏好
算法设计者可以观察更广时间范围内的用户行为来调整算法,使其从反映用户“想要什么”转向反映用户“应该要什么”。例如,当Meta决定仅向用户推送最相关的通知时,虽然脸书的访问量在最初的短期内减少了,但最终,它的访问量还是恢复了,并保持了长期增长。
当人们做出选择时,鼠标的移动轨迹可以揭示这些选择之间相互冲突的偏好。分析鼠标轨迹的鼠标跟踪技术可以揭示出“想要”和“应该”之间的冲突,而单纯的“选择结果”数据会忽略这些冲突。当然,完全按照“应该”来调整算法可能会扼杀用户的需求,但在“想要”和“应该”之间找到更好的平衡点,对企业和用户都有好处。
用不同的用户数据训练算法
通常,我们是在数据集的一部分或一叠数据上训练算法,然后用保留样本的其他数据进行验证。算法设计者可以有选择性地使用某种用户数据训练算法,比如一些表现出更慎重选择和更好决策的用户,从而让算法报告出理想的结果(如减少孤独感、提高幸福感或满意度等)。设计师可以对需要花更多时间考虑才能做出选择的用户进行算法训练。例如,设计师可以针对安全驾驶员训练自动驾驶汽车,而不是针对所有人。设计者可以针对最幸福、对体验最满意、或与可信来源内容互动最多的社交媒体用户训练算法。如果这些用户不存在,设计者可以模拟这样的用户的行为,来反映用户的规范偏好,并用模拟出来的数据来训练算法。
减少算法对行为的依赖,让其更直接地依赖既定偏好
在算法循环的设计中融入人类,对机器学习的许多实际应用都大有裨益。设计师可以通过调查和访谈征求用户的偏好,并将其与数据得出的用户行为偏好相融合,将这个衡量标准纳入算法设计优化的目标中。如果我们让Netflix播放新的科学纪录片,那么它的算法就不应该只推荐我们观看过的情景喜剧和动作片。用户通常能判断出,算法何时会让他们失望,这种明确的反馈能改进算法推荐。为了了解用户希望平台如何管理虚拟现实中的私人空间,防止欺凌和骚扰,Meta与研究人员合作,对来自32个国家的受访者进行了民意调查研究。
现在是公司、政府和科学家投资于算法设计行为科学的时候了。设计者无法通过编码摆脱人类心理。算法设计应该超越显性偏好,它应该反映出我们渴望成为什么样的人,而不仅仅是我们过去的样子。
凯里·K·莫雷韦奇(Carey K. Morewedge)| 文  
凯里·K·莫雷韦奇是波士顿大学Questrom商学院的营销学教授和埃弗雷特·W·洛德(Everett W. Lord)杰出学者。
DeepL、ChatGPT | 译   张雨箫 | 编校
推荐阅读
《哈佛商业评论》中文版 联系方式
投稿、广告、内容和商务合作
↓点击阅读原文进入哈评中文网,获取更多精品内容
继续阅读
阅读原文