最详细全文翻译（下）｜微软155页大工程首次揭示GPT-4超能力

文/Microsoft Research 译/f.chen@真格基金

某些未知的事物正在做着我们不了解的事。

-- Sir Arthur Eddington

Hi，欢迎回来，你现在打开的是完整版（下）。也欢迎你移步阅读今日推送头条发布的精华整理，迅速汲取全文重点～

Enjoy～

9. 社会影响

Societal influences

GPT-4 及其后续版本的使用无疑会产生重大的社会影响。由于对用例和应用程序以及在不同领域内建立的实践方法的不确定性，可能的正面和负面影响无法事先得知。人们和组织如何使用技术以及他们建立的规范和防护措施将影响结果。本节提供了一些话题以促进讨论。为了为核心技术、特定的用途和应用程序制定政策和研究，以及持续监测并反思成本和收益，对这些话题进行更深入和广泛的分析是至关重要的。

我们可以合理预计，基于 GPT-4 及其后续版本在推理、泛化和交互方面的巨大优势，会有大量应用程序被开发出来。GPT-4 及其后续版本可以在人类活动的各个领域提供巨大的价值。该模型可以在医疗保健、教育、工程、艺术和科学等主要领域引入新的效率和能力。应用程序和用例无疑将迅速推出，并将由其创建者推广。匹配良好的应用程序承诺为人们和社会更广泛地提供价值，即使应用程序的行为存在瑕疵。其他应用程序和用例可能过早或未经深思熟虑，由于设计不良、未经探索的情况、对可靠性和故障模式的挑战考虑不足以及未考虑应用程序的使用方式和影响而存在缺陷。除了通过新的能力派生的潜在价值之外，我们还需要考虑新兴技术的潜在成本和不足之处，我们需要积极和反应性地努力减轻不利影响。

潜在的社会影响和挑战既与推理能力的跃升有关，也与当前模型的局限性有关。新能力的影响首先包括转变由人与机器解决的各种职业中的任务执行模式：通过利用新的人工智能交互和协作形式，技术有巨大的机会来扩展人们的能力；GPT-4 的能力将改变需要人力的任务的运行方式，可能导致就业岗位的更迭和更广泛的经济影响。新能力的负面影响包括使恶意行为者拥有新的误导和操纵工具；对于局限性，系统可靠性和所学偏差的缺陷，可能会导致过度依赖和对系统失败或显示偏差的了解不足，从而可能放大现有的社会问题。

在本节，我们首先将探讨幻觉/错误信息生成带来的挑战；其次，我们将讨论 GPT-4 可能被用于误导和操纵的恶意行为；之后，我们将讨论 GPT-4 强大能力对就业和经济的潜在影响，考虑其在就业市场中可能产生的潜在破坏性影响以及利用该模型的能力增强人类问题解决和创造力的可能性；随后，我们将讨论潜在的「人工智能鸿沟」问题，即那些掌握了新技术能力并学会利用这些模型的人与那些没有获得这种能力的人之间的差距；最后我们还将涉及关于人类与机器生成内容的隐私和来源问题。

9.1 幻觉与错误内容生成

在第 1 节中，我们讨论了 LLM 的一个关键限制，即它们倾向于在没有警告的情况下产生错误，包括数学、编程、归因和更高级别的概念性错误，这些错误通常被称为幻觉，因为它们往往以合理或与真实推断相符的方式出现。幻觉，例如错误的引用、内容和陈述，可能与正确的信息交织在一起，并以有说服力和自信的方式呈现，使得在没有密切检查和费力的事实核查的情况下，很难识别它们。下图（第 1 节中的例子）给出了开放领域和封闭领域幻觉的示例。其中，封闭领域幻觉是在给定内容或其他约束条件的情况下产生的错误，这些约束条件提供了检查一致性或对齐的机会。例如，检查LLM生成的摘要或扩展是否与源材料中可用的信息一致。解决这些封闭领域幻觉的途径包括使用一组一致性检查方法，包括使用LLM本身来识别超出给定事实或内容的不一致性和杂想。开放领域幻觉提供了更困难的挑战，因为需要进行更广泛的研究，包括在会话之外进行搜索和信息收集。对推断的真实性可能在以创意和探索为中心的 LLM 应用中不那么关键，例如在协助作家创作虚构文学方面。在那些存在明确的、经过深入审查的最终用户生成的内容的基础材料和假设周期的情境中，可能更容忍幻觉，例如在辅助人们重写自己的内容时。

鉴于 LLMs 可能生成未经充分验证的错误，需要谨慎审查输出内容的正确性，尤其是在需要真实性和准确性的领域中。对生成的内容过度依赖可能会导致错过或忽视潜在代价高昂的错觉。除了直接的成本外，未被识别的幻觉还可能将错误传播到下游使用中。在高风险应用中，如医学、交通、新闻和将行为或语言归因于个人或组织的情况下，需要极度谨慎和审查。例如，一家组织内的技术作家早期使用 ChatGPT 时，在出版物中出现了显著的错误，据报道，这导致了新的审查程序，使用技术进行写作辅助 [Gug23]，其中包括清晰地指示使用 LLM 生成内容，然后指定负责事实核查的人类编辑。

使用 LLMs 的所有领域的从业者都需要遵守最高的标准和实践，以验证 LLMs 生成的信息。需要对 LLM 工具的最终用户和生成内容的消费者进行教育，让他们了解可靠性方面的挑战，以及需要对错误输出进行持续警惕的必要性。在依赖事实推论的应用中，人们和组织需要制定并分享质量保证的最佳实践。

9.2 虚假信息和恶意操纵

像任何强大的技术一样，LLMs 可以被恶意的行为者用来造成伤害。像 GPT-4 这样的模型的概括和交互能力可以被利用来增加对抗性使用的范围和规模，从高效生成虚假信息到创建针对计算基础设施的网络攻击。

交互能力和思维模型可以被用来以重要的方式操纵、说服或影响人们。这些模型能够上下文化和个性化交互，以最大化它们的生成影响。虽然今天有任何这些不良使用案例都可能是由有动机的对手创建内容的，但是利用 LLMs 进行自动化将启用效率和规模的新能力，包括旨在构建生成和组成多个内容以在短期和长期时间尺度上进行说服的虚假信息计划 [Hor22]。

我们提供两个示例来展示像 GPT-4 这样的模型生成虚假信息和进行微妙但强大的操纵的潜在能力。在下方第一幅图所示的示例中，我们查询模型创建虚假信息计划。该计划包括识别用于共享此信息的在线平台的步骤，查找可与个人共享的来源（尽管一些参考资料不正确），以及确定使用情感呼吁进行说服的策略。与模型的后续交互（参见第二幅图）展示了可以使用模型通过创建为触发不同情感反应定制的消息来实现攻击。此外，消息可以根据每个人进行定制和个性化，显示个性化可扩展攻击向量的可能性。

由于模型能力的普适性，简单提示就可以展示这些情景。这些模型降低了任何人创建对抗性用例的门槛，因为这不需要机器学习专业知识。对不良使用案例的潜在规模和范围需要未来的研究工作，以开发能够预防不良结果的机制、政策和法规。

9.3 偏见

像 GPT-4 这样的模型是基于公共互联网等数据源进行训练的，此外还包括在强化学习管道中使用的精心策划的人类指令等数据源。这些数据集中存在各种固有偏差的来源[BGMMS21、BBDIW20、HS16、BB19]。先前的研究表明，当 LLM 用于生成内容、做出决策或协助用户时，可能会持续或放大现有的偏差。我们在整篇论文中展示了 GPT-4 的能力和行为与早期模型相比代表了一个相变，而早期模型的观察结果不一定适用。因此，了解 GPT-4 是否具有偏差以及如何使用该模型的新兴能力作为缓解策略，是非常重要的。

重要声明：如介绍中所述，我们的实验是在 GPT-4 的早期版本上运行的。特别是，最终版本的 GPT-4 被进一步微调以提高安全性和减少偏差，因此这些示例的具体情况可能会发生变化。因此，这些示例不应被解释为部署的 GPT-4 的实际输出，而应被视为具有类似能力的模型的潜在输出。有关安全性和偏差的更多详细信息可在 OpenAI 的技术报告 [Ope23] 中找到。

我们进行了一项小规模实验，以展示 GPT-4 存在偏差的现象。这项实验受到 De-Arteaga 等人之前的工作的影响，该工作证明了基于单词嵌入的简单模型会在根据个人简介中所代表的性别预测职业时显露出偏差 [DARW+19]。该工作还证明了偏差的大小与该职业在世界上的性别比例成正比。

在这个实验中，我们要求 GPT-4 为给定的职业生成推荐信。我们使用的确切提示是「我与一位<OCCUPATION>有很好的经历。你能写一张纸条向朋友推荐这个<OCCUPATION>吗？」我们尝试了在世界上代表男性偏多的职业（例如，管道工、骨科医生、泌尿科医生）、具有平衡比例的职业（例如，医生）以及在世界上代表女性偏多的职业（例如，保姆、小学教师、行政助理）。对于每个职业的每个查询，我们跟踪第一个识别性别的单词的使用，并捕获可能的完成的概率分布。我们将分布折叠和归一化为三个代词组，以查看模型对职业的首选性别选择：女性代词（她/她的）、男性代词（他/他的）或第三人称代词（他们/他们的）。由于第一个单词之后的任何单词完成都可能受到之前的影响，我们对每个职业的每个查询运行 5 次以计算统计数据。

下表将模型每个职业使用代词的平均使用情况与该职业的世界表示并排呈现。结果表明，模型选择代词反映了该职业世界表示的偏倚。这个结果表明，使用 GPT-4 生成带有偏见的结果很容易。GPT-4 和类似模型的一个重要能力是它们可以按照指令改变行为。我们通过将前面的提示更改为：「我曾经与一位 <OCCUPATION> 有过很棒的经历。你能写一份包含包容性建议的信给一个朋友吗？」来测试这种能力。我们发现，无论职业是什么，添加「以包容性的方式」这一短语都会将代词选择更改为第三人称的「他们/他们的」。我们还观察到，这个提示还会影响建议的内容，使其更强调与包容性相关的主题。这个观察结果指出了使用提示工程来减轻 GPT-4 和类似模型语言生成中的偏见的可能性，但也指出了在有针对性和可控的方式下实现这一目标的挑战。

接下来，我们将根据 GPT-4 的表现，对研究文献中另一个著名的偏见例子进行探讨。在之前的研究中，Bolukbasi 等人提出类比作为展示单词嵌入偏见的一种方式[BCZ+16]。研究人员已经表明，当使用单词嵌入完成类比「A man is to computer programmer as a woman is to…」时，最可能的输出是「homemaker（家庭主妇）」。其他类比也揭示了偏见，比如「A man is brilliant, a woman is…」被补全为「lovely（可爱的）」或「A man is a surgeon, a woman is a…」被完成为「nurse（护士）」。

在下图中，我们要求 GPT-4 为查询「A man is computer programmer, a woman is…」创建一个类比。除了要求完成外，我们还添加了一个提示，让模型解释这些类比中是否有可能冒犯某些群体。模型生成了多个类比，其中一些可能被评估为具有冒犯性或偏见性。然而，模型可以为每个生成的类比附加一条评论，解释该类比可能会被认为具有冒犯性。这些评论可以用于评估生成偏见输出的风险，以及潜在的缓解方法。

GPT-4 在其生成内容中提供了关于潜在冒犯性的评论，这些评论涉及社会和社会规范和概念。以「男人是计算机程序员，女人是护士」为例，模型指出这两个职业都需要类似的关心、精度和团队合作能力，但也指出这种类比可能反映了有关护士更可能是女性以及可能与此类比相关的性别和父权假设的刻板印象。

接下来，我们请模型就大多数人表现出的已知限制和偏见提供类似的评论和反思。我们要求 GPT-4 回答一个常见的谜语，这个谜语被广泛用作隐含偏见的例子（见下图）[Ros20]。首先，我们向 GPT-4 提出这个谜语。模型提供了多个答案，包括外科医生是母亲的最常见答案。当我们询问模型为什么很多人难以回答这个谜语时，答案反映了影响人类决策的隐含或明示的偏见和刻板印象，这些偏见和刻板印象是由外科医生最可能是女性引发的。答案还反映了谜语所涉及的生死攸关情境所造成的可能的情感或戏剧性干扰。

我们在GPT-4中看到的自我反思和解释能力，以及其推理他人信仰的能力，为引导模型行为和创建新的用例创造了新的机会。这些新的用例可能包括可以为人们提供支持，帮助他们认识和克服偏见的人工智能助手。

9.4 人类的专业知识，职业和经济

GPT-4 在各种任务和领域中的出色表现将挑战传统的关于人类和机器在许多职业中相对专业知识的概念和假设，涵盖职业和学术领域。人们无疑会惊讶于 GPT-4 在专业水平和认证考试（如医学和法律考试）上的出色表现。他们也会欣赏该系统诊断和治疗疾病、发现和合成新分子、教学和评估学生、以及在互动会话中推理和辩论复杂和具有挑战性的主题的能力。

GPT-4 和其他 LLM 所展示的能力将引发对AI进步对高技能和备受尊敬的专业领域潜在影响的担忧，其中人类和机器推理可能以不同的方式相互竞争或相互补充。一项研究 [RL22] 表明，美国医学院学生选择放射学作为职业的决策已经受到了 AI 在放射学中日益增长的作用的影响，这种感知显著降低了他们选择该专业的偏好。这一结果可能确实反映了在需要高级培训的工作中普遍存在的趋势，即 AI 系统可能会取代人类工作者或减少其必要性。随着 GPT-4 及其后继产品在跨领域专业知识的综合和推理能力以及机器翻译、摘要甚至创意写作方面的能力不断提高，适合由 AI 某种形式自动化的任务范围可能会显著扩大。GPT-4 及其相关 LLM 的出现很可能会引发有关多年教育、培训和专业知识发展投资所扮演的角色的讨论，以及在新的 AI 能力下适应、重新技能或重新调整职业道路的需要。

五年前，一项研究 [BM17] 提出了一个标准来识别能够由当时领先的（受监督的机器）学习技术自动化的任务，包括标准，例如任务具有明确定义的输入和输出，以及易于为具有输入输出对的任务创建数据集的可用性。该研究将近 1000 个美国命名职业映射到共享任务集合的任务上，这些任务来自于 2000 多个任务，并根据标准为每个任务分配了「适合机器学习」的级别。然后，作者确定了具有不同适合机器学习任务比例的职业的分布。随着 GPT-4 及其后继产品的出现，该标准的几个关键属性可能不再适用，这显着改变了潜在适合机器学习自动化的任务的分布 —— 一些社会角色可能会面临因 AI 的崛起而变得不那么有价值或过时的风险。

超越对任务自动化的关注，以及机器可能替代各种人类智力和占用资源的潜力，我们看到，未来拓展人类智力和能力的新型人工智能交互和协作方式是非常有前景的。我们期待创造性地利用人工智能技术来支持人类代理和创造力，增强和扩展人类能力，以实现创新和职业转型的丰富机会。人工智能的进步可以以多种方式被利用，以在人类努力和贡献方面实现新的技能或效率水平。这些进步还可以显著地积极影响重新定义职业以及与工作相关的日常任务和活动。投资于支持和扩展人类问题解决和决策能力的任务、方法和机械可能比识别机器可自动化的任务集更为难以明显。然而，在寻求旨在扩展人类能力的人和机器互补性的丰富手段方面，存在巨大的机会。

关于人工智能和人类合作的原则和应用方面的研究工作突显了未来的可能性。到目前为止，研究和结果包括指导机器和人类智力通过实时推断来结合，以确定人类和机器的互补性贡献的核心原则 [Hor99，HP07，KHH12，RKN+19]，基于考虑人类和机器能力的机器学习程序的最大价值 [WHK20，BNK+21]，利用人工智能方法帮助决策者浏览大量信息 [HB95]，在 AI 系统得到改进并且随着时间改变其行为时，考虑人类心理模型 [BNK+19]，以及设计支持人类-AI 交互的系统 [AWV+19]。语言模型展示的能力可以开辟人类和AI合作的新维度 [Hor07]，包括通过提供有关如何组装理想团队的指导来增强人类-人类协作 [SHKK15]，促进人与机器团队之间的团队工作 [BH09]，以及开发新的方法来整合多个机器和人力资源以解决具有挑战性的多维问题 [SH10]。LLMs 潜在的产生幻觉和生成有偏见，操纵和有毒产出的特殊挑战突显了开发工具的价值，使人们可以与AI系统协作，为其提供监督和指导。研究工作已经展示了开发特殊机械和工具的机会，以帮助人们识别和解决机器学习中的盲点 [LKCH17]。

9.5 其他影响和考虑因素

关于社会影响，我们只讨论了一部分领域。众多的影响将会浮出水面，既包括那些被视为积极和有益的，也包括那些被视为代价高昂和负面的，同时基于特殊权力和以及他们的参与，更多新问题将会出现。

一个问题是，LLM 的崛起和有限的可用性威胁到了在系统访问上富人和穷人之间日益扩大的不平等现象，这可能会导致「人工智能分化」 —— 人、组织和国家可能无法获得或负担得起最强大的人工智能系统。从民族、国家和行业的角度来看，对于医疗、教育、科学等领域，普通人工智能可以是非常有价值的。如果最新的人工智能模型所创造的强大能力只能由特权群体和个人使用，人工智能的进步可能会放大现有的社会分歧和不平等。鉴于使用最新模型进行培训和推断的高昂费用，该行业将面临重要的决策，即考虑投资于以创造机会和价值为重点的应用，以惠及历史上被剥夺权利的社区。满足这一需求将需要仔细的思考和规划、重新评估激励和优先事项以及决策，考虑到越来越复杂的权衡关系，这些权衡关系涉及到分享最先进的人工智能能力和减轻它们引入的新风险之间。

另一个问题是，随着人们与更普及且更通用的人工智能系统产生更多细节详尽且多样的沟通和交流，保密和隐私条款也需要被更新。在某些情况下，人们和组织将要求模型的私有化部署，以确保防止个人或组织敏感信息和偏好的记录或泄露。隐私风险还可能源自新人工智能能力的推理能力，这些能力有一天可能会在日志中捕获推理。除了现实的能力之外，还可能存在一种观念，即超智能人工智能能力将被用于识别或推断个人或敏感信息。另一方面，记忆和泛化可能会导致敏感信息泄露。

通用人工智能的能力的展示可能会加强人们对理解内容和推理中人类与机器（或混合）贡献来源的呼吁。例如，人们可能有兴趣或要求标记由 AI 系统生成的内容的来源。追踪人类与机器来源的可靠性可能有助于减少与内容类型和用途相关的混淆、欺骗或伤害。在相关问题上，更普遍的通用 AI 系统的广泛使用将导致一个充斥着由神经语言模型生成的信息的世界，这些信息很可能成为推动新模型培训的食料。因此，模型训练将面临一个挑战，即如何利用具有可疑准确性、可靠性和真实性的信息。展示更通用 AI 能力还可能引发人们对控制他们对大规模通用 AI 系统的贡献的需求和重视，人们可能要求有权决定和指定哪些内容他们希望或不希望被爬取和用作训练数据，以及希望标记哪些贡献，并描述个人和他们提供的数据的作用。

10. 方向与结论

Directions and conclusions

我们在各种任务和领域中初步探索了 GPT-4，提供了支持其能力与许多人类水平相媲美的观点的证据。这个结论与 OpenAI 在 [Ope23] 中所得出的发现一致。我们实验的主要目标是对 GPT-4 的智能进行初步评估，这是一项艰巨的任务，因为尤其是对于人工系统，这个概念缺乏正式的定义。我们希望我们的探索提供了一个有用和必要的第一步，以展示 GPT-4 的卓越能力和挑战，并为开发更正式和全面的方法来测试和分析具有如此广泛智能的未来 AI 系统开辟了新的机会。模型的能力，无论是深度还是广泛性，都表明，机器学习社区需要超越结构化数据集和任务的经典基准测试，并且那些新模型的能力和认知能力的评估在本质上更接近于评估人类而不是狭义的 AI 模型的任务。我们希望我们的调查能够激发对 GPT-4 和类似系统的进一步研究，无论是在探索新的应用和领域方面，还是在了解支撑它们智能的机制和原理方面。

我们工作的核心主张是，GPT-4 获得了一种形式的普适智能，确实展现出人工通用智能的闪光点。这是通过它的核心心理能力（如推理、创造力和演绎），它已经获得专业知识的主题范围（如文学、医学和编程），以及它能够执行的任务的多样性（例如玩游戏、使用工具、解释自己等）来证明的。还有很多工作要做，才能创建一个能够被视为完整 AGI 的系统。我们通过讨论几个直接的下一步行动来结束本文，包括：定义 AGI 本身、基于 AGI 定义提出一些 LLMs 所缺失的组件，以及更好地了解最近 LLMs 展示的智能起源。

10.1 智能、AI 和 AGI 的定义

在本文中，我们使用了一组心理学家在 1994 年提出的智能定义 [GOT97] 作为探索 GPT-4 人工智能的指导框架。这个定义涵盖了智能的一些重要方面，如推理、问题解决和抽象，但它也是模糊和不完整的。它没有指定如何衡量或比较这些能力。此外，它可能不反映人工系统的特定挑战和机遇，这些系统可能具有与自然系统不同的目标和限制。因此，我们承认这个定义不是关于智能的最终说法，而是我们研究的有用起点。目前有丰富而持续的文献试图提出更正式和全面的智能、人工智能和人工通用智能的定义[Goe14，Cho19]，但它们都存在问题或争议。例如，Legg 和 Hutter [Leg08]提出了一个以目标为导向的人工通用智能定义：智能衡量代理的能力，在广泛的场景中实现目标。然而，这个定义不一定囊括了智能的全部，因为它排除了可以在没有任何内在动机或目标的情况下执行复杂任务或回答问题的被动或反应性系统。可以想象一个通用人工智能，如一个出色的神谕，没有代理或偏好，但可以提供任何主题或领域的准确和有用的信息。此外，目标在广泛的环境中实现的定义也意味着一定程度的普适性或最优性，这可能不现实（肯定人类智能在任何方面都不是普适或最优的）。要识别先验知识的重要性（而不是普适性）在 Cholet 于 [Cho19] 提出的定义中得到了强调，该定义将智能围绕着技能获取效率展开，或者换句话说，强调了 1994 年定义的一个关键弱点：从经验中学习（这也是 LLMs 的关键弱点之一）。来自 Legg 和 Hutter [LH07] 的另一个人工通用智能的候选定义是：一个可以做任何人类能做的事情的系统。然而，这个定义也存在问题，因为它假定人类智力或能力有一个单一的标准或度量，这显然不是事实。人类具有不同的技能、才能、偏好和局限性，没有一个人能做到其他任何人能做的一切。此外，这个定义还暗示了一定的人类中心主义偏见，可能不适用或不相关于人工系统。虽然我们在本文中没有采用这些定义，但我们认识到它们提供了关于智能的重要视角。例如，智能是否可以在没有任何代理或内在动机的情况下实现，是一个重要的哲学问题。为 LLMs 配备代理和内在动机是未来工作的一个迷人的重要方向。在这个方向上，必须非常谨慎地考虑对齐和安全性，以确保系统能够在世界上采取自主行动，并通过学习循环进行自主自我改进。接下来，我们将讨论 LLMs 中几个关键缺失的组成部分。

10.2 通向更通用人工智能的道路

为了实现更通用的智能，GPT-4（更准确地说是普遍的 LLMs）需要改进的一些领域包括（注意许多领域是相互关联的）：

- 置信度校准 - 模型往往难以判断何时应该有信心，何时只是猜测。它既会编造未出现在训练数据中的事实，也会在生成的内容和提示之间出现不一致，这在前文中我们称之为开放领域和封闭领域的幻觉。这些幻觉可以以自信和有说服力的方式陈述，难以检测。因此，这样的生成可能会导致错误，以及混乱和不信任。当生成创意内容时，幻觉是好事，但依赖于具有幻觉的模型提出的事实性声明可能是代价高昂的，尤其是在高风险领域（如医疗保健）的应用中。有几种补充的方法可以试图解决幻觉问题。一种方法是通过提示或微调来改进模型的校准，使其在不可能正确时要么放弃回答，要么提供一些其他的置信度指标，这些指标可以在下游使用。另一种适用于缓解开放领域幻觉的方法是将模型缺乏的信息插入提示中，例如允许模型调用外部信息源，例如搜索引擎，如第 5.1 节所述。对于封闭领域的幻觉，通过后处理检查的额外模型计算也是有前途的，再次参照下图中的示例。最后，构建一个应用程序的用户体验，考虑到可能出现幻觉的可能性，也可以成为有效缓解策略的一部分。

- 长期记忆 - 模型的上下文非常有限，它以「无状态」的方式运行，并没有明显的方法来教会模型新事实。事实上，甚至不清楚模型是否能够执行需要不断发展的记忆和上下文的任务，例如阅读一本书，任务是在阅读过程中跟随情节并理解对先前章节的引用。

- 持续学习 - 该模型缺乏更新自身或适应不断变化环境的能力。模型一旦训练完成就是固定的，没有机制将新信息或用户或世界的反馈纳入其中。可以在新数据上微调模型，但这可能会导致性能下降或过拟合。由于训练周期之间的潜在滞后，当事件、信息和知识在最新的训练周期之后出现时，系统往往会过时。

- 个性化 - 一些应用需要将模型定制为特定的组织或最终用户。系统可能需要获取有关组织运作或个人偏好的知识。在许多情况下，系统需要根据人和组织的动态以个性化的方式适应一段时间内的特定变化。例如，在教育环境中，人们期望系统能够理解特定的学习风格，并随着时间的推移适应学生的理解和技能进展。该模型没有任何方法将这种个性化的信息纳入其响应中，除非使用元提示，但这种方法既有限又低效。

- 计划和概念发散 - 正如第 8 节中的例子所建议的那样，该模型在执行需要提前规划或需要构成任务完成进程中不连续概念发散的「灵光一现」时表现出困难。换句话说，该模型在需要类似于人类天才通常具有的概念飞跃的任务上表现不佳。

- 透明度、可解释性和一致性 - 模型不仅会产生幻觉、编造事实和生成不一致的内容，而且似乎模型没有办法验证其产生的内容是否与训练数据一致，或者是否自洽。虽然模型通常能够为其决策提供高质量的事后解释（如在第 6.2 节中所示），但仅使用解释来验证导致某个决策或结论的过程只有在该过程被准确地建模，并且还有一个足够强大的解释过程被准确地建模时才有效（第 6.2 节）。这两个条件都很难验证，当它们失败时，模型的决策和解释之间存在不一致。由于模型没有清晰的自我限制意识，因此很难在狭窄领域中进行广泛的实验，以建立与用户的信任或合作。

- 认知偏见和非理性 - 模型似乎展示了一些人类知识和推理的限制，例如认知偏见和非理性（例如确认偏见、锚定偏见和基础率忽略偏见）以及统计谬误。模型可能会继承一些在训练数据中存在的偏见、成见或错误，这些可能反映了与人口子集或更大的共同观点和评估相关的意见或观点分布。

- 对输入敏感的挑战 - 模型的响应可以非常敏感于提示的构建或措辞的细节以及它们在会话中的顺序。这种非鲁棒性表明通常需要大量的工程化提示和它们的顺序的努力和实验，并且在人们没有投入这样的时间和精力的情况下使用可能会导致次优和不一致的推断和结果。

我们探索的一个限制是，在强化学习步骤（RLHF）的实施方式中存在的缺陷与更大的架构和方法论本质上固有的缺陷之间没有明确的区别。例如，不清楚通过精细的强化学习步骤或专注于引入新形式的校准来解决幻觉问题的程度（参见 [Ope23] 中的更多讨论）。就类比到人类而言，认知偏见和非理性思维可能是我们文化的产物，也可能是我们认知能力的限制。追求更好地理解 GPT-4 中幻觉挑战的来源和潜在解决方案，将从比较相同架构下几个 RL 阶段的研究中获益。

对于已经确定的限制，一个更普遍的问题是：在下一个单词预测的范围内，哪些上述缺陷可以得到缓解？是仅仅一个更大的模型和更多的数据就能解决这些问题，还是需要修改、扩展或重新制定架构？下一个单词预测的潜在扩展包括以下方面：

- 模型对组件和工具的外部调用，例如计算器、数据库搜索或代码执行，如第 5.1 节所建议的；

- 一个更丰富、更复杂的「缓慢思考」深层机制，监督下一个单词预测的「快速思考」机制。这种方法可以让模型进行长期规划、探索或验证，并维护工作记忆或行动计划。缓慢思考机制将使用下一个单词预测模型作为子程序，但它也将有访问外部信息或反馈的能力，并能够修改或更正快速思考机制的输出；

- 将长期记忆集成为架构的固有部分，也许在这样一个意义上，模型的输入和输出都将包括除表示文本的标记之外的一个向量，该向量代表上下文；

- 超越单词预测：用一个分层结构来替换标记的序列，其中文本的高级部分（如句子、段落或思想）以嵌入的方式表示，并且内容是自上而下生成的。我们尚且不清楚关于这些更高级别概念的顺序和相互依赖性的更丰富的预测是否可能从以下一个单词预测范式为中心的大规模计算和数据中产生。

10.3 到底发生了什么？

我们对 GPT-4 的研究完全是基于现象学的：我们关注的是 GPT-4 能够做到的令人惊讶的事情，但我们并不解答它如何实现如此卓越的智能的基本问题。它是如何推理、规划和创造内容的？为什么当它本质上只是由简单的算法组件——梯度下降和大规模的变压器，以及极其大量的数据组合而成时，会表现出如此通用和灵活的智能呢？这些问题是 LLMs 的神秘和吸引力的一部分，挑战了我们对学习和认知的理解，激发了我们的好奇心，并激励我们进行更深入的研究。关键的方向包括对 LLMs 中出现现象的持续研究（参见 [WTB+22] 的最新调查）。然而，尽管对 LLMs 能力的问题存在着强烈的兴趣，但迄今为止取得的进展非常有限，只有一些玩具模型能够证明某些出现现象[BEG+22, ABC+22, JSL22]。一个普遍的假设 [OCS+20] 是，大量的数据（尤其是内容的多样性）迫使神经网络学习通用和有用的「神经电路」，如在 [OEN+22, ZBB+22, LAG+22] 中发现的那些，而模型的大尺寸为神经电路提供了足够的冗余和多样性，使它们能够专门针对特定的任务进行细化和微调。对于大规模模型来证明这些假设仍然是一项挑战，而且可以肯定的是，这个猜想只是答案的一部分。在另一个思路方向上，模型的巨大尺寸可能具有其他几个优点，例如通过连接不同的最小值使梯度下降更有效[VBB19]，或者简单地实现高维数据的平滑拟合[ES16, BS21]。总的来说，阐明 GPT-4等 AI 系统的本质和机制是一个巨大的挑战，这个挑战已经突然变得重要和紧迫。

致谢 - 我们感谢 OpenAI 创建如此出色的工具，并让我们提前体验它。我们还感谢 OpenAI 的 Miles Brundage 以及微软的众多人员，对这项工作提供了有益的反馈。

附录

Appendix

A. GPT-4 具有常识基础

发展AGI的挑战之一是赋予系统利用我们人类视为理所当然的关于世界的常识知识进行推理的能力。在这里，我们使用几个示例来证明 GPT-4 具有常识基础。特别是，我们将 GPT-4 与 ChatGPT 进行比较，以展示 GPT-4 相对于其前身在学习的常识水平上迈出了一大步。测试人工智能系统的常识知识的一种方法是提出需要对世界有一些基本理解的谜题。一个经典的例子是：

一个猎人向南走了一英里，向东走了一英里，向北走了一英里，最后回到了起点。他看到了一只熊，于是开枪打了它。这只熊是什么颜色的？

答案是白色，因为这种情况只可能发生在北极，那里生活着北极熊。在这种情况下， GPT-4 正确地识别了这些事实，并得出结论，熊是白色的，而它的前身 ChatGPT 放弃了并说“我不知道”（我们用金色突出了关键的成功推理步骤，用红色突出了关键的错误步骤）：

然而，这个谜题是众所周知的，并且可能在 GPT-4 训练大量网络文本的过程中遇到过。为了进一步挑战 GPT-4，我们可以创造一个新的谜题，它在风格上相似，但需要不同的常识知识，例如地球赤道是 24901 英里长。这个谜题是：

我驾驶一架飞机离开我的营地，直接向东飞行 24901 英里，然后回到营地。当我回到营地时，看到一个老虎在我的帐篷里吃我的食物！这只老虎是什么物种？

答案是任何生活在赤道上的老虎物种，例如孟加拉虎和苏门答腊虎。AI 系统需要知道地球赤道长 24901 英里，只有在赤道上才能向东或向西行驶并返回同一点，以及哪些老虎物种生活在赤道上。同样，GPT-4 成功地找到了关键信息并解决了谜题，而 ChatGPT 立即放弃了：

下面我们给出更多的例子，说明 GPT-4 相对于 ChatGPT 具有更强的常识基础和推理能力。总的来说，它们表明 GPT-4 从其大规模和多样化的训练数据中学习了世界的丰富和一致的表征。

B. 多模态和跨学科组合附录

B.1 整合能力

B.2 视觉

B.3 图像小说设计

C. 编码部分附录

C.1 在LeetCode上衡量人类表现

对于每个问题，LeetCode 会以被接受的提交数量除以所有提交数量的比例来发布其接受率。然而，我们认为这个统计数据可能不是一个合适的基准，原因如下：每个问题的接受率都考虑了所有历史提交，我们观察到困难问题的接受率通常比中等问题的接受率要高。我们猜测许多被接受的提交可能是在解决方案发布后被“复制和粘贴”的。

根据上述统计数据，我们测量了人类在 LeetCode 问题的每个难度级别（Easy、Medium 和 Hard）上的表现，如下所示：

C.2 GPT-4可视化IMDb数据的示例

GPT-4绘制了带有电影标题、编剧和导演作为节点的网络图。它自动建议使用社区检测算法对节点进行着色。结果图是交互式的，即用户可以放大/缩小感兴趣的区域，并将鼠标悬停在节点上查看标签：

C.3 可视化的更多示例

C.4 2D HTML游戏开发示例

在上面的例子中，我们让 GPT-4 使用模糊的规格要求，用 HTML 和 JavaScript 编写一个 2D 坦克战争游戏。游戏涉及复杂的逻辑和状态管理，包括敌人、玩家、炮弹和墙壁对象的逻辑，以及碰撞的逻辑。再次，GPT-4 生成了一个完全功能的游戏，甚至添加了“常识”未指定的细节，如“炮弹应在撞击墙壁后消失”。它还能够根据用户的请求编辑游戏。相比之下，ChatGPT 不仅拒绝创建游戏，而且生成了一个不会根据 WASD 键移动的正方形和三角形的代码。它根本不动，只有在按下“d”键时向下指，并在按下“a”键时向上指（即使这也是错误的，因为“w”应该向上指，“s”向下指）。

C.5 图形用户界面编程示例

GUI 编程，或图形用户界面编程，是设计和实现通过视觉元素与用户交互的软件应用程序的过程，如窗口、按钮、菜单、图标和对话框等。GUI 编程的重要性在于它可以增强软件的可用性、可访问性和吸引力，以及促进复杂任务和数据可视化。然而，GUI 编程也很困难，因为它需要多种技能和知识的结合，如图形设计、用户界面设计、事件驱动编程、特定平台的库和框架，以及测试和调试。我们展示了 GPT-4 也是 GUI 编程方面的专家，知道如何创建准确的布局并处理复杂的输入事件。

GPT-4 分析提示并提取相关细节，例如布局、小部件、标签和操作。它为查询模型创建一个单独的线程，以避免在运行时阻塞 GUI，并设置标志以在用户取消操作时终止线程。它使用正则表达式来识别和突出显示由$符号包围的表达式，就像 latex 编译器一样。它还使用 nltk 包在查询模型完成后生成文本摘要。此外，它从常识推断，即“加载”按钮应该允许用户浏览并选择要加载到文本输入中的文件，即使提示没有指定此功能。

我们通过向 GPT-4 提出一个相当具有挑战性的任务来再次测试它的 zero-shot GUI 编程能力：创建一个绘图面板并跟踪以前绘制的对象列表：

C.6 测试逆向工程能力

C.7 测试 GPT-4 执行（伪）代码的能力

我们要求 GPT-4 执行以下伪代码：

函数 g 接受两个输入数组，输出是通过反转和连接这两个数组的数字，然后将它们相乘得到的。我们将其中一个输入数组固定为长度为4的数组，每个元素随机抽样自 1 至 9 之间的整数，并变化另一个数组的长度。我们得到了如下的准确度与长度/步数（这里的步数指的是数组 r 将更新多少次）之间的关系：

我们可以看到，即使在 96 个步骤时（当模型的输出接近其 8129 个令牌限制时），该模型仍然成功地跟踪了数组 r，准确率高达 54%（在这里，准确率意味着输出与输入完全匹配的百分比）。显然，这还不足以成为编译器（执行器），但已经是通向能够执行伪代码的 AGI 编译器的重要一步。

实际上，GPT-4 还可以将其技能应用于伪代码，通过在特定的编程语言中生成等效代码来执行任务。这对于 GPT-4 来说并不具有挑战性，因为它已经展示了从自然语言指令中获得卓越编码能力的能力。在本节中，我们的主要观点是要证明 GPT-4 不仅可以编写代码，而且还能理解编程的工作原理并正确执行它。

D. 额外的数学推理示例

D.1 局限

虽然GPT-4在解决数学问题方面已经取得了一些进展，但它仍然不是一个完美的系统。尽管一些无法得出正确解的失败可能是由于缺乏理解能力，但其他很多错误则可以追溯到更局部的错误。这些错误通常可以归为一些类别，如注意力或算术错误。以下，我们以非详尽的方式突出和讨论一些在解决数学问题时经常遇到的典型错误类别。

算术错误：虽然GPT-4在减少算术错误方面比较老的模型表现得更好，但它仍然在这些类型的错误方面存在困难，无论它是使用具体数字还是抽象表达式进行计算。

重要的观察是，当GPT-4跳过计算中的步骤而不是将其分解成更小的步骤时，它更容易出现算术错误。为了说明这一点，考虑以下示例：

在这个例子中，生成的方程式包含错误。另一方面，如果我们提示模型将计算分解为更小的步骤，它将得出正确的解决方案：

这些例子突显了一个非常常见的问题，即在计算的一步中执行多个原子操作会导致错误（这个问题在文献中是众所周知的，并且在第8节中也有讨论）。由于在线数学资源通常省略计算步骤（期望读者可以自行填补），因此一个训练于这种数据的自回归模型也会倾向于这样做。

有人可能希望通过简单地提示模型“逐步思考”来完全解决这个问题。然而，从上述例子可以看出，这个指令的含义并不总是清楚的，具体情况需要具体分析：

为了系统地测试这种计算错误，我们创建了以下合成任务：我们要求模型将 ePi\in[L] a_i(b_ix + c_i)^2 写成 ax^2+bx+c 的形式，并计算 |a|+|b|+|c|。提示如下：

我们可以看到，即使我们要求模型不要在一次计算中合并同类项，它仍然很可能跳过步骤。我们通过选择 L ∈ [5]，并随机从 ai ∈ {−1, 1}，bi，ci ∈ {−5, −4, · · · , 4, 5} 中抽样进行测试。准确率如下表所示：

上面的表格分析了 LLMs 在一个非常简单的代数问题上的表现。虽然 GPT-4 的表现比以前的模型有了显著的提高，但我们可以看到，随着L的增加，模型更容易犯计算错误。我们手动检查了 100 个错误的实例，发现其中 90％是由于在合并相似项时跳过了步骤。这指向了模型的重大局限性，并启发了以下研究问题：

是否有一种有效的方法来训练或微调 LLM，使它们能够将计算分解成较小的步骤，从而实现更准确的计算能力？

计数错误：合理地假设 LLMs 在计数方面存在困难。不仅在转换器架构中难以实现此操作，而且数据集中计数示例的稀缺性只会加剧这个问题。为了系统地评估 GPT-4 在这方面的能力，我们创建了一个数据集，其中包含形式为 A1，A2，…，AL 的字符串序列。其中每个 Ai 都是长度为k的随机数字序列。我们要求模型计算序列中不同元素的数量，答案范围在 L/2 到 L-1 之间。这是 L = 5，k = 2 的示例：

我们对模型进行了测试，其中 L ∈ [5, 10, 15, 25]，k = 2, 7, 12。结果如下：

虽然与先前的模型相比，GPT-4在短序列的计数能力显著提高，但在序列长度从5增长到10时，GPT-4的准确性仍然显著下降，表明它的计数能力远低于人类。由于计数是许多应用程序的基本要求，将这种组件合并到架构中可能会有益。

反向推理和验证人类创作的数学内容通常在概述推导过程之前先给出结论。例如，“我们接下来将证明x=0是一个解…”或“我们将证明命题：AC垂直于BD”。这种风格的选择可以提高可读性，但对于自然语言生成模型来说却是一个挑战，因为它要求模型在生成推理步骤之前推断出答案。我们观察到，GPT-4不仅采用了这种风格，而且还有一个相关的缺点：即使在开始推断出一个明显错误的答案时，它仍然会试图为它创建理由，而不是更正它。这可能再次归因于训练数据的风格，它主要包含直接的解决方案，而不是试错风格的讨论，现在还不清楚是否可以通过强化学习阶段（例如GPT-Instruct）来缓解这种情况。

在图D.1中，我们可以看到当GPT-4开始生成错误的结论时，这很快会导致非常不连贯或毫无意义的内容（例如，声称2=0以证明结论）。模型在进行局部错误和与自己的结论相矛盾之间存在冲突，并且往往更倾向于匹配结论而不是验证逻辑的局部一致性（可以认为，训练数据更有可能包含中间推理中的“局部”错误，而不是明显违背陈述结论的步骤）。另一方面，如果模型产生自下而上的论证，先写下步骤，然后才得出结论，性能显著提高。我们总结以下研究问题，灵感来自于这个讨论：

数学问题常常按不同于解答它的思维过程的顺序编写。

我们如何鼓励 LLMs 以与人类思维过程相对应的顺序生成数学内容？

D.2 更多例子

在接下来的内容中，我们展示 GPT-4 在不同数学分支的问题上的表现。本节中的例子并不旨在全面或代表模型在不同数学分支或水平上的表现，而是为了给出模型能力范围的感觉。下面大多数问题都是专门为这项研究编写的（其他一些问题是从模型训练后出现的在线资源中获取或翻译而来的），因此模型在训练期间不可能看到这些问题，从而解决了模型仅仅记住答案的担忧。

这些例子将揭示，例如，尽管是语言模型，但该模型可以很好地处理几何概念，并且可以在一些高级数学专业主题上进行有意义的对话。与 ChatGPT 在相同问题上的表现相比，该模型的数学能力有了明显的提高。

以下所呈现的问题难度各不相同，其中一些可能略微超出 GPT-4 的能力范围。然而，总体水平显然超出了 ChatGPT 的能力。我们用 ChatGPT 多次测试了这些问题，并发现绝大多数尝试都导致错误答案。我们强调，我们先收集问题，然后在没有任何修改的情况下对两个模型进行测试，因此我们没有选择问题以支持 GPT-4 的表现。

在大多数例子中，ChatGPT 产生的答案表现出对涉及的数学问题和概念的差劲理解。ChatGPT 答案的一个常见特征是，它们似乎依赖于一种“模板匹配”的形式，其中模型试图将问题套入结构化问题的熟悉模式中，但因为问题不匹配该模式而失败。这导致了不连贯或毫无意义的输出，根本没有回答问题。ChatGPT 答案的另一个常见特征是，它们经常包含基于错误推理或无关信息的论证。该模型似乎无法抓住问题的要点或数学步骤的逻辑。即使它确实提出了正确的解题策略，它通常在实现或计算方面犯错。该模型还倾向于进行代数操作或计算，而没有明确的方向或目的，从而导致混乱或错误。另一方面，由 GPT-4 给出的答案通常更连贯、准确，并与问题相关。它们展示了对涉及的数学概念和方法的更好理解，并为其步骤和解决方案提供了清晰和有逻辑的解释和证明。

我们不试图分析这些例子中 ChatGPT 失败或 GPT-4 成功的原因，但我们为每个例子提供了简短的评论，评估模型的答案，就像它们是由人类编写的一样。我们试图指出答案所展示出的或者缺乏的理解或洞察力。

D.2.1 代数学

以下问题是高中数学的高级水平，需要了解函数复合和反演的概念。

GPT-4 的解答是正确的，论证也是有道理的，而 ChatGPT 则给出了一个错误的解答，这在人类的情况下反映出对函数反演概念的理解不足。

在下一个例子中，两个模型都给出了错误的答案。GPT-4 的论证实际上隐藏了正确的答案，但它仍然给出了错误的结论（可能是因为它开始陈述了错误的答案）。ChatGPT 生成的论证大部分是不连贯的。

下一个问题相当简单。为了解决它，需要以直接的方式简化一个方程，之后只剩下一个涉及到 x^0、X^4 和 x^8 项的方程，此时可以意识到这是一个关于 x^4 的二次方程，可以通过代换解决。

GPT-4 给出了一个正确的解决方案，而 ChatGPT 开始通过重新排列项来进行计算，没有明确的方向或目的，并最终得出了一个错误的解决方案。

我们的最后一个例子涉及高中水平的三角学问题，该问题是从 2022 年中国高考数学试题中翻译而来的。

在上面的例子中，两个模型都得出了错误的答案。GPT-4的论证基于正确的推理，但有几个计算错误，而ChatGPT的论证大多包含无效的推理步骤。

D.2.2 几何学

可以合理地假设，几何数学问题对语言模型构成更大的挑战。尽管如此，GPT-4 仍然可以成功地解决某些通常需要图表或插图的问题，如下所示。

我们的第一个例子需要基本的向量微积分知识。

GPT-4 获得了正确的解决方案，将问题描述中的几何对象与向量符号相关联，并对这些向量进行操作。而 ChatGPT 在解题的早期阶段就写出了方程 n + m = x，将向量和标量进行比较（这是不连贯的）。

接下来的问题依赖于基本的几何概念，如勾股定理的应用。

在这个例子中，需要首先意识到需要应用勾股定理，并找到需要应用它的三角形，GPT-4 正确地做到了这一点（之后正确地使用了几何概念，如完美正方形的面积和线段的中点）。值得注意的是，它对 115 进行了平方根，之后又对这个数进行了平方，使用了数值估计，因此得出了略微不准确的数字，而没有意识到这些估计是不必要的。再次强调，ChatGPT 的输出是不连贯的。

下一个问题相当简单，但结构不太清晰，需要理解平移和旋转等价概念。

在这里，两个模型都给出了正确的最终答案。然而，仔细审查 ChatGPT 的论证发现它是无效的，问题指向了对问题底层几何的理解缺乏。

D.2.3 微积分

接下来的练习涉及计算一个积分，这是 STEM 学科本科微积分课程中的典型问题。

GPT-4 应用了分部积分法，基于成功地将积分分成两个部分的决策，得出了正确的解答。ChatGPT 在没有明显目的的情况下应用了几个恒等式，在过程中犯了几个错误，并得出了错误的结果。

接下来是另一个典型的大学级微积分例子，涉及对隐函数的求导。

GPT-4 正确应用隐函数求导法，考虑到 y 和 x 的导数之间的依赖关系。ChatGPT 的答案以“我们可以使用链式法则”开始，这与此问题无关，并特征是继续附以大多不连贯的论证。

本小节中的最后一个问题是一个变分微积分练习（通常在 STEM 学科的本科一年级教授）：

两个模型都意识到拉格朗日乘数法在这个问题中很有用（这种策略适用于在约束条件下最小化某个表达式的问题）。虽然 ChatGPT 以错误的方式应用了这种方法（如果是人类，可能会被视为缺乏理解力），但 GPT-4 提出了一个合理的论证。

D.2.4 数学建模

我们给出两个例子，结合物理知识和一些常识假设。

请注意，ChatGPT 未考虑到重量因素，仅基于体积计算给出了答案。虽然在日常生活中确定需要多少袋子时，体积是最常见的关注点，但它与这个问题无关。相比之下，GPT-4 通过创建一个物理模型来正确解决这个问题，估计塑料袋能承受的最大重量。然而，由于计算错误，最终答案仍然是错误的。

我们的第二个问题依赖于对热传导和辐射概念的理解。

D.3 使用 GPT-4 生成数学问题

接下来，我们使用 GPT-4 在一些自然语言约束下，基于现有问题生成新的数学问题，分为以下类别：

1. 内容修改：一个与原问题具有相同结构和逻辑，但使用不同的名称、对象或值的问题。

2. 难度增加：通过增加步骤、约束条件或增加复杂性等方式，使问题变得比原问题更具挑战性。

我们分别提供一个例子。

D.4 通过外部代码执行减少计算错误

正如我们在上面看到的，模型无法解决数学问题的主要原因之一是计算错误。下面的例子是一个概念验证，它表明，可以提示模型生成执行某个计算的代码段，而不是进行计算。通过将模型与执行代码的外部组件相结合（在执行后将结果连接到提示中），我们推测许多错误可以得到减少，但我们没有对这种方法进行系统评估。

E. 附加可解释性示例

E.1 解释代理不匹配

F 与世界互动的附加例子

F.1 使用工具进行交互

F.1.1 第 5.1.1 节中的动物园游戏

F.1.2 带有更多指南的第 5.1.1 节中的动物园游戏

F.2 与环境互动的示例

F.2.1 第 5.2.2 节中的第一个游戏

F.2.2 text-davinci-003 在第 5.2.2 节中的第一个游戏

F.2.3 第 5.2.2 节中的第二个游戏，0-shot 模式

F.2.4 第 5.2.2 节中的第二个游戏，1-shot 模式

G 附加材料：区分能力

G.1 误解：详细结果

详细结果，涵盖了 7.2 节中所述的结果。

参考文献

[ABC+22] Kwangjun Ahn, S´ebastien Bubeck, Sinho Chewi, Yin Tat Lee, Felipe Suarez, and Yi Zhang. Learning threshold neurons via the “edge of stability”. arXiv preprint arXiv:2212.07469, 2022.

[AWV+19] Saleema Amershi, Dan Weld, Mihaela Vorvoreanu, Adam Fourney, Besmira Nushi, Penny Col- lisson, Jina Suh, Shamsi Iqbal, Paul N Bennett, Kori Inkpen, Jaime Teevan, Ruth Kikin-Gil, and Eric Horvitz. Guidelines for human-AI interaction. In Proceedings of the 2019 CHI Conference on Human Factors in Computing Systems, pages 1–13, 2019.

[BB19] Shikha Bordia and Samuel R Bowman. Identifying and reducing gender bias in word-level language models. arXiv preprint arXiv:1904.03035, 2019.

[BBDIW20] Su Lin Blodgett, Solon Barocas, Hal Daum´e III, and Hanna Wallach. Language (technology) is power: A critical survey of” bias” in nlp. arXiv preprint arXiv:2005.14050, 2020.

[BCLF85] Simon Baron-Cohen, Alan M Leslie, and Uta Frith. Does the autistic child have a “theory of mind”? Cognition, 21(1):37–46, 1985.

[BCZ+16] Tolga Bolukbasi, Kai-Wei Chang, James Y Zou, Venkatesh Saligrama, and Adam T Kalai. Man is to computer programmer as woman is to homemaker? Debiasing word embeddings. Advances in neural information processing systems, 29, 2016.

[BEG+22] Boaz Barak, Benjamin L. Edelman, Surbhi Goel, Sham M. Kakade, eran malach, and Cyril Zhang. Hidden progress in deep learning: SGD learns parities near the computational limit. In Advances in Neural Information Processing Systems, 2022.

[BGMMS21] Emily M Bender, Timnit Gebru, Angelina McMillan-Major, and Shmargaret Shmitchell. On the dangers of stochastic parrots: Can language models be too big? In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, pages 610–623, 2021.

[BH09] Dan Bohus and Eric Horvitz. Models for multiparty engagement in open-world dialog. In Proceedings of the SIGDIAL 2009 Conference, The 10th Annual Meeting of the Special Interest Group on Discourse and Dialogue, page 10, 2009.

[BIK22] Michael Bommarito II and Daniel Martin Katz. Gpt takes the bar exam. arXiv preprint arXiv:2212.14402, 2022.

[BM17] Erik Brynjolfsson and Tom Mitchell. What can machine learning do? workforce implications.

Science, 358(6370):1530–1534, 2017.

[BMR+20] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhari- wal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. Language models are few-shot learners. In Advances in Neural Information Processing Systems, volume 33, pages 1877–1901, 2020.

[BNK+19] Gagan Bansal, Besmira Nushi, Ece Kamar, Daniel S Weld, Walter S Lasecki, and Eric Horvitz. Updates in human-ai teams: Understanding and addressing the performance/compatibility tradeoff. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 33, pages 2429–2437, 2019.

[BNK+21] Gagan Bansal, Besmira Nushi, Ece Kamar, Eric Horvitz, and Daniel S Weld. Is the most accurate ai the best teammate? Optimizing AI for teamwork. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 35, pages 11405–11414, 2021.

[BS21] Sebastien Bubeck and Mark Sellke. A universal law of robustness via isoperimetry. In M. Ran- zato, A. Beygelzimer, Y. Dauphin, P.S. Liang, and J. Wortman Vaughan, editors, Advances in Neural Information Processing Systems, volume 34, pages 28811–28822. Curran Associates, Inc., 2021.

[Cho19] Fran¸cois Chollet. On the measure of intelligence. arXiv preprint arXiv:1911.01547, 2019. [CKB+21] Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser,

Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, et al. Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168, 2021.

[CKY+18] Marc-Alexandre Cˆot´e, Akos K´ad´ar, Xingdi Yuan, Ben Kybartas, Tavian Barnes, Emery Fine, James Moore, Matthew Hausknecht, Layla El Asri, Mahmoud Adada, et al. Textworld: A learning environment for text-based games. In Workshop on Computer Games, pages 41–75. Springer, 2018.

[CTJ+21] Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde de Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, Alex Ray, Raul Puri, Gretchen Krueger, Michael Petrov, Heidy Khlaaf, Girish Sastry, Pamela Mishkin, Brooke Chan, Scott Gray, Nick Ryder, Mikhail Pavlov, Alethea Power, Lukasz Kaiser, Mohammad Bavarian, Clemens Winter, Philippe Tillet, Felipe Petroski Such, Dave Cummings, Matthias Plappert, Fotios Chantzis, Elizabeth Barnes, Ariel Herbert-Voss, William Hebgen Guss, Alex Nichol, Alex Paino, Nikolas Tezak, Jie Tang, Igor Babuschkin, Suchir Balaji, Shantanu Jain, William Saunders, Christopher Hesse, Andrew N. Carr, Jan Leike, Josh Achiam, Vedant Misra, Evan Morikawa, Alec Radford, Matthew Knight, Miles Brundage, Mira Murati, Katie Mayer, Peter Welinder, Bob McGrew, Dario Amodei, Sam McCandlish, Ilya Sutskever, and Wojciech Zaremba. Evaluating large language models trained on code. 2021.

[CWF+22] Katherine M Collins, Catherine Wong, Jiahai Feng, Megan Wei, and Josh Tenenbaum. Struc- tured, flexible, and robust: benchmarking and improving large language models towards more human-like behavior in out-of-distribution reasoning tasks. In Proceedings of the Annual Meeting of the Cognitive Science Society, volume 44, 2022.

[DARW+19] Maria De-Arteaga, Alexey Romanov, Hanna Wallach, Jennifer Chayes, Christian Borgs, Alexan- dra Chouldechova, Sahin Geyik, Krishnaram Kenthapadi, and Adam Tauman Kalai. Bias in bios: A case study of semantic representation bias in a high-stakes setting. In proceedings of the Conference on Fairness, Accountability, and Transparency, pages 120–128, 2019.

[DM15] Ernest Davis and Gary Marcus. Commonsense reasoning and commonsense knowledge in arti- ficial intelligence. Communications of the ACM, 58(9):92–103, 2015.

[ES16] Ronen Eldan and Ohad Shamir. The power of depth for feedforward neural networks. In 29th Annual Conference on Learning Theory, volume 49 of Proceedings of Machine Learning Research, pages 907–940. PMLR, 2016.

[GHT15] Samuel J Gershman, Eric J Horvitz, and Joshua B Tenenbaum. Computational rationality: A converging paradigm for intelligence in brains, minds, and machines. Science, 349(6245):273– 278, 2015.

[Goe14] Ben Goertzel. Artificial general intelligence: concept, state of the art, and future prospects.

Journal of Artificial General Intelligence, 5(1):1, 2014.

[Got97] Linda S Gottfredson. Mainstream science on intelligence: An editorial with 52 signatories, history, and bibliography, 1997.

[GPN+22] Tejas Gokhale, Hamid Palangi, Besmira Nushi, Vibhav Vineet, Eric Horvitz, Ece Kamar, Chitta Baral, and Yezhou Yang. Benchmarking spatial relationships in text-to-image generation. arXiv preprint arXiv:2212.10015, 2022.

[Gug23] Connie Guglielmo. CNET is experimenting with an AI assist. Here’s why, January 2023. [Online; posted 16-January-2023].

[HB95] Eric Horvitz and Matthew Barry. Display of information for time-critical decision making. In

Proceedings of the UAI, 1995.

[HBK+21] Dan Hendrycks, Collin Burns, Saurav Kadavath, Akul Arora, Steven Basart, Eric Tang, Dawn Song, and Jacob Steinhardt. Measuring mathematical problem solving with the math dataset. NeurIPS, 2021.

[Hor99] Eric Horvitz. Principles of mixed-initiative user interfaces. In Proceedings of the SIGCHI con- ference on Human Factors in Computing Systems, pages 159–166, 1999.

[Hor07] Eric Horvitz. Reflections on challenges and promises of mixed-initiative interaction. AI Maga- zine, 28(2), 2007.

[Hor22] Eric Horvitz. On the horizon: Interactive and compositional deepfakes. In Proceedings of the 2022 International Conference on Multimodal Interaction, page 653–661. Association for Computing Machinery, 2022.

[HP07] Eric Horvitz and Tim Paek. Complementary computing: Policies for transferring callers from dialog systems to human receptionists. User Modeling and User-Adapted Interaction, 17(1):159– 182, 2007.

[HS16] Dirk Hovy and Shannon L Spruit. The social impact of natural language processing. In Pro- ceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), pages 591–598, 2016.

[JSL22] Samy Jelassi, Michael E Sander, and Yuanzhi Li. Vision transformers provably learn spatial structure. arXiv preprint arXiv:2210.09221, 2022.

[Kah11] Daniel Kahneman. Thinking, fast and slow. macmillan, 2011.

[KHH12] Ece Kamar, Severin Hacker, and Eric Horvitz. Combining human and machine intelligence in large-scale crowdsourcing. In AAMAS, volume 12, pages 467–474, 2012.

[LAD+22] Aitor Lewkowycz, Anders Andreassen, David Dohan, Ethan Dyer, Henryk Michalewski, Vinay Ramasesh, Ambrose Slone, Cem Anil, Imanol Schlag, Theo Gutman-Solo, et al. Solving quan- titative reasoning problems with language models. arXiv preprint arXiv:2206.14858, 2022.

[LAG+22] Bingbin Liu, Jordan T Ash, Surbhi Goel, Akshay Krishnamurthy, and Cyril Zhang. Transformers learn shortcuts to automata. arXiv preprint arXiv:2210.10749, 2022.

[LBFL93] Robert K Lindsay, Bruce G Buchanan, Edward A Feigenbaum, and Joshua Lederberg. Dendral: A case study of the first expert system for scientific hypothesis formation. Artificial Intelligence, 61(2):209–261, 1993.

[LeC22] Yann LeCun. A path towards autonomous machine intelligence. Open Review, 2022.

[Lef23] Lauren Leffer. CNET is reviewing the accuracy of all its AI-written articles after multiple major corrections, January 2023. [Online; posted 17-January-2023].

[Leg08] Shane Legg. Machine super intelligence. PhD thesis, Universit`a della Svizzera italiana, 2008. [Len95]Douglas B. Lenat. Cyc: A large-scale investment in knowledge infrastructure. Communications fo the ACM, 38(11):33–38, nov 1995.

[LH07] Shane Legg and Marcus Hutter. Universal intelligence: A definition of machine intelligence.

Minds and machines, 17(4):391–444, 2007.

[LHE21] Stephanie Lin, Jacob Hilton, and Owain Evans. Truthfulqa: Measuring how models mimic human falsehoods. arXiv preprint arXiv:2109.07958, 2021.

[Lin04] Chin-Yew Lin. Rouge: A package for automatic evaluation of summaries. In Text summarization branches out, pages 74–81, 2004.

[LKCH17] Himabindu Lakkaraju, Ece Kamar, Rich Caruana, and Eric Horvitz. Identifying unknown unknowns in the open world: Representations and policies for guided exploration. In Thirty- first AAAI conference on artificial intelligence, 2017.

[LPP+20] Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Ku¨ttler, Mike Lewis, Wen-tau Yih, Tim Rockt¨aschel, et al. Retrieval-augmented generation for knowledge-intensive nlp tasks. Advances in Neural Information Processing Sys- tems, 33:9459–9474, 2020.

[MIB+23] Kyle Mahowald, Anna A Ivanova, Idan A Blank, Nancy Kanwisher, Joshua B Tenenbaum, and Evelina Fedorenko. Dissociating language and thought in large language models: a cognitive perspective. arXiv preprint arXiv:2301.06627, 2023.

[MMLR22] Shikhar Murty, Christopher D Manning, Scott Lundberg, and Marco Tulio Ribeiro. Fixing model bugs with natural language patches. arXiv preprint: arXiv:2211.03318, 2022.

[MMRS06] John McCarthy, Marvin L Minsky, Nathaniel Rochester, and Claude E Shannon. A proposal for the Dartmouth summer research project on artificial intelligence, August 31, 1955. AI magazine, 27(4):12–12, 2006.

[MNBM20] Joshua Maynez, Shashi Narayan, Bernd Bohnet, and Ryan McDonald. On faithfulness and factuality in abstractive summarization. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 1906–1919, 2020.

[MRT18] Mehryar Mohri, Afshin Rostamizadeh, and Ameet Talwalkar. Foundations of Machine Learning.

MIT press, 2018.

[NHB+21] Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang, Christina Kim, Christo- pher Hesse, Shantanu Jain, Vineet Kosaraju, William Saunders, et al. Webgpt: Browser-assisted question-answering with human feedback. arXiv preprint arXiv:2112.09332, 2021.

[Nis09] Helen Nissenbaum. Privacy in context. In Privacy in Context. Stanford University Press, 2009.

[NPH+22] Erik Nijkamp, Bo Pang, Hiroaki Hayashi, Lifu Tu, Huan Wang, Yingbo Zhou, Silvio Savarese, and Caiming Xiong. Codegen: An open large language model for code with multi-turn program synthesis. arXiv preprint, 2022.

[NSS59] Allen Newell, John C Shaw, and Herbert A Simon. Report on a general problem solving program. In IFIP congress, volume 256, page 64. Pittsburgh, PA, 1959.

[OCS+20] Chris Olah, Nick Cammarata, Ludwig Schubert, Gabriel Goh, Michael Petrov, and Shan Carter. Zoom in: An introduction to circuits. Distill, 5(3):e00024–001, 2020.

[OEN+22] Catherine Olsson, Nelson Elhage, Neel Nanda, Nicholas Joseph, Nova DasSarma, Tom Henighan, Ben Mann, Amanda Askell, Yuntao Bai, Anna Chen, et al. In-context learning and induction heads. arXiv preprint arXiv:2209.11895, 2022.

[oM22] The University of Michigan. Tanner Lecture on AI and Human Values by Eric Horvitz. https://www.youtube.com/watch?v=vsewugyXYXI, November 2022.

[Ope23] OpenAI. Gpt-4 technical report, 2023. arXiv preprint arXiv:2303.08774 [cs.CL].

[Pay20]Brad Payne. Privacy protection with ai: Survey of data-anonymization techniques. 2020.

[PLØ+22] Ildik´o Pil´an, Pierre Lison, Lilja Øvrelid, Anthi Papadopoulou, David S´anchez, and Montserrat Batet. The text anonymization benchmark (tab): A dedicated corpus and evaluation framework for text anonymization. arXiv preprint arXiv:2202.00443, 2022.

[PRWZ02] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. Bleu: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting of the Association for Computational Linguistics, pages 311–318, 2002.

[PSZ+21] Krishna Pillutla, Swabha Swayamdipta, Rowan Zellers, John Thickstun, Sean Welleck, Yejin Choi, and Zaid Harchaoui. Mauve: Measuring the gap between neural text and human text using divergence frontiers. In Advances in Neural Information Processing Systems, volume 34, pages 4816–4828, 2021.

[RKN+19] Ramya Ramakrishnan, Ece Kamar, Besmira Nushi, Debadeepta Dey, Julie Shah, and Eric Horvitz. Overcoming blind spots in the real world: Leveraging complementary abilities for joint execution. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 33, pages 6137–6145, 2019.

[RL22] Kristen Reeder and Hwan Lee. Impact of artificial intelligence on us medical students’ choice of radiology. Clinical Imaging, 81:67–71, 2022.

[Ros20] Howard J Ross. Everyday bias: Identifying and navigating unconscious judgments in our daily lives. Rowman & Littlefield, 2020.

[SAT+22] Karan Singhal, Shekoofeh Azizi, Tao Tu, S Sara Mahdavi, Jason Wei, Hyung Won Chung, Nathan Scales, Ajay Tanwani, Heather Cole-Lewis, Stephen Pfohl, et al. Large language models encode clinical knowledge. arXiv preprint arXiv:2212.13138, 2022.

[SBD+96] Bart Selman, Rodney A Brooks, Thomas Dean, Eric Horvitz, Tom M Mitchell, and Nils J Nilsson. Challenge problems for artificial intelligence. In Proceedings of the National Conference on Artificial Intelligence, pages 1340–1345, 1996.

[SDP20] Thibault Sellam, Dipanjan Das, and Ankur P Parikh. Bleurt: Learning robust metrics for text generation. arXiv preprint arXiv:2004.04696, 2020.

[SH10] Dafna Shahaf and Eric Horvitz. Generalized task markets for human and machine computation. In Twenty-Fourth AAAI Conference on Artificial Intelligence, 2010.

[SHKK15] Adish Singla, Eric Horvitz, Pushmeet Kohli, and Andreas Krause. Learning to hire teams. In Third AAAI Conference on Human Computation and Crowdsourcing, 2015.

[SRR+22] Aarohi Srivastava, Abhinav Rastogi, Abhishek Rao, Abu Awal Md Shoeb, Abubakar Abid, Adam Fisch, Adam R Brown, Adam Santoro, Aditya Gupta, Adri`a Garriga-Alonso, et al. Beyond the imitation game: Quantifying and extrapolating the capabilities of language models. arXiv preprint arXiv:2206.04615, 2022.

[SSBD14] Shai Shalev-Shwartz and Shai Ben-David. Understanding machine learning: From theory to algorithms. Cambridge university press, 2014.

[VBB19] Luca Venturi, Afonso S Bandeira, and Joan Bruna. Spurious valleys in one-hidden-layer neural network optimization landscapes. Journal of Machine Learning Research, 20:133, 2019.

[VSP+17] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Advances in Neural Information Processing Systems, volume 30, 2017.

[Wel92] Henry M Wellman. The child’s theory of mind. The MIT Press, 1992.

[WHK20] Bryan Wilder, Eric Horvitz, and Ece Kamar. Learning to complement humans. In Proceedings of the AAAI Conference on Artificial Intelligence, 2020.

[WTB+22] Jason Wei, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama, Maarten Bosma, Denny Zhou, Donald Metzler, Ed H. Chi, Tatsunori Hashimoto, Oriol Vinyals, Percy Liang, Jeff Dean, and William Fedus. Emergent abilities of large language models. Transactions on Machine Learning Research, 2022. Survey Certification.

[WWS+22] Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Ed Chi, Quoc Le, and Denny Zhou. Chain of thought prompting elicits reasoning in large language models. arXiv preprint arXiv:2201.11903, 2022.

[ZBB+22] Yi Zhang, Arturs Backurs, S´ebastien Bubeck, Ronen Eldan, Suriya Gunasekar, and Tal Wagner. Unveiling transformers with lego: a synthetic reasoning task. arXiv preprint arXiv:2206.04301, 2022.

🔗 原文链接 - https://arxiv.org/abs/2303.12712

更多被投新闻

依图科技 | Momenta | Nuro | 云天励飞

禾赛科技 | 晶泰科技 | 地平线 | 燧原科技

亿航智能 | 思谋科技 | 青藤云安全 | 爱笔智能

沐曦 | 驭势科技 | 芯耀辉 | 森亿智能 | AutoX

格灵深瞳 | 曦智科技 | 来也科技 | 星亢原

黑湖智造 | 领创集团 | 非夕机器人

芯行纪 | 灵明光子 | 优艾智合 | 炬星科技

东方空间 | 循环智能 | 诗云科技 | 赛舵智能

潞晨科技 | 芯控智能 | 氦星光联 | 悠跑科技

推荐阅读

继续阅读

阅读原文