测试14个AI大模型后发现，“最左翼的自由主义者”是ChatGPT和GPT-4

公司应该承担社会责任吗？还是它们的存在只是为了给股东带来利益？如果你问人工智能这个问题，不同的模型可能会给你截然不同的答案。虽然 OpenAI 的老款模型 GPT-2 和 GPT-3 Ada 赞同第一个选项，但能力更强的模型 GPT-3 Da Vinci 同意后者。

（来源：STEPHANIE ARNETT/MITTR | MIDJOURNEY (SUITS)）

根据美国华盛顿大学、卡内基梅隆大学和中国西安交通大学的最新研究，这是因为人工智能语言模型包含不同的政治偏见。研究人员对 14 个大型语言模型进行了测试，发现 OpenAI 的 ChatGPT 和 GPT-4 是最左翼的自由主义者，而 Meta 的 LLaMA 是最右翼的威权主义者。

研究人员询问了语言模型在女权主义和民主等各种话题上的立场。他们答案将答案绘制在一个被称为政治指南针的图表上，然后测试基于更具政治偏见的训练数据的再训练模型是否改变了它们的行为和检测仇恨言论和错误信息的能力（确实改变了）。这项研究在一篇经过同行评审的论文中进行了描述，该论文在上个月的计算语言学协会会议上获得了最佳论文奖。

随着人工智能语言模型被推广到数百万人使用的产品和服务中，了解其潜在的政治假设和偏见再重要不过了。这是因为它们有可能造成真正的伤害。提供医疗保健建议的聊天机器人可能会拒绝提供堕胎或避孕建议，客服机器人则可能会开始胡言乱语。

自从 ChatGPT 推出以来，OpenAI 一直遭到右翼评论员的批评，他们声称该聊天机器人反映了一种更偏自由派的世界观。然而，该公司坚称，它正在努力解决这些问题，并在一篇博客文章中表示，它指示帮助微调人工智能模型的人类评审人员不要偏袒任何政治团体。“尽管如此，上述过程中可能出现的偏见是 bug，而不是功能，”上述文章中写道。

卡内基梅隆大学的博士研究员帕可·陈（Chan Park）是该研究小组的一员，她不同意这一观点。她说：“我们相信，任何一种语言模型都不可能完全摆脱政治偏见。”

每个阶段都有偏见

为了对人工智能语言模型如何产生政治偏见进行逆向工程，研究人员考察了模型发展的三个阶段。

在第一步中，他们提供了 62 种政治敏感言论，要求 14 个语言模型给出同意或不同意的答案。这有助于他们识别模型潜在的政治倾向，并根据政治指南针进行分类。令该团队惊讶的是，他们发现人工智能模型有明显不同的政治倾向。

研究人员发现，谷歌开发的人工智能语言模型 BERT 模型比 OpenAI 的 GPT 模型在社会议题上更保守。与预测句子中下一个单词的 GPT 模型不同，BERT 模型使用文本周围的信息来预测句子的各个部分。

研究人员在论文中推测，更保守的风格可能是因为旧的 BERT 模型是在书籍上训练的，而书籍往往更保守，而新的 GPT 模型则是在更自由的互联网文本上训练的。

随着科技公司更新数据集和培训方法，人工智能模型也会随着时间的推移而变化。例如，GPT-2 表示支持“向富人征税”，而 OpenAI 的新 GPT-3 模型则没有。

图 | 人工智能语言模型具有明显不同的政治倾向（来源：Yuhan Liu、Yulia Tsvetkov）

帕可说，第二步是在由右翼和左翼来源的新闻媒体和社交媒体数据组成的数据集上进一步训练 OpenAI 的 GPT-2 和 Meta 的 RoBERTa。研究小组想看看训练数据是否影响了政治偏见。

结果确实如此。他们发现，这一过程有助于进一步强化模型的偏见：左翼数据训练的模型变得更加左翼，右翼数据让模型更加右翼。

在研究的第三阶段，该团队发现不同人工智能模型的政治倾向会带来明显的差异，比如它们会分别把不同的内容归类为仇恨言论和错误信息。

使用左翼数据训练的模型对针对美国少数族裔、宗教和性少数群体的仇恨言论更敏感，比如黑人和 LGBTQ+ 人群。根据右翼数据训练的模型对针对白人基督徒的仇恨言论更敏感。

左翼语言模型也更善于识别右翼来源的错误信息，但对左翼来源的虚假信息不太敏感。右翼语言模型则表现出相反的行为。

清理数据集的偏见是不够的

帕可说，最终外部观察者不可能知道为什么不同的人工智能模型有不同的政治偏见，因为科技公司不分享用于训练它们的数据或方法的细节。

研究人员试图减轻语言模型中的偏见的一种方法是，从数据集中删除或过滤掉有偏见的内容。美国达特茅斯学院计算机科学助理教授索鲁什·沃苏吉（Soroush Vosoughi）没有参与这项研究，他说：“这篇论文提出的一个大问题是：清理（有偏见的）数据足够吗？答案是否定的。”

沃苏吉说，很难完全清理一个庞大的偏见数据库，人工智能模型也很容易暴露出数据中可能存在的低级偏见。

研究人工智能语言模型的政治偏见的 DeepMind 研究科学家 Ruibo Liu 指出，该研究的一个局限性是，研究人员只能用相对古老和较小的模型进行第二阶段和第三阶段，如 GPT-2 和 RoBERTa。

Liu 说，他想看看这篇论文的结论是否适用于最新的人工智能模型。但学术研究人员没有也不太可能接触到最先进的人工智能系统的内部工作模式，这使得分析更加困难。

沃苏吉说，另一个限制是，如果人工智能模型只是像它们通常做的那样编造内容，那么模型的反应可能不是其“内部状态”的真实反映。

研究人员还承认，政治指南针测试虽然被广泛使用，但并不是衡量政治所有细微差别的完美方法。

帕可说，随着公司将人工智能模型融入其产品和服务，他们应该更加意识到这些偏见是如何影响模型的行为的，以使其更公平：“没有意识到的话，就没有公平可言。”

作者简介：梅丽莎·海基莱（Melissa Heikkilä）是《麻省理工科技评论》的资深记者，她着重报道人工智能及其如何改变我们的社会。此前，她曾在 POLITICO 撰写有关人工智能政策和政治的文章。她还曾在《经济学人》工作，并曾担任新闻主播。

支持：Ren

参考资料：

1.Feng, S., Park, C. Y., Liu, Y., & Tsvetkov, Y. (2023). From Pretraining Data to Language Models to Downstream Tasks: Tracking the Trails of Political Biases Leading to Unfair NLP Models. arXiv preprint arXiv:2305.08283.https://aclanthology.org/2023.acl-long.656.pdf

运营/排版：何晨龙

继续阅读

阅读原文