GPT-4问世，让AGI统治地球！（附技术报告解析）

来自：高能AI

进NLP群—>加入NLP交流群

老铁们，好久不见，我是JayJay。

就在刚刚，北京时间3月15日凌晨，GPT-4问世。

现在，ChatGPT-Plus已经可以访问GPT-4：

GPT-4是OpenAI在深度学习领域深耕的最新里程碑。GPT-4是一个大型多模态模型，接受图像和文本输入，仅支持文本输出（并不是支持视频或图片输出）。

OpenAI宣称：GPT-4虽然在许多现实世界场景中不如人类能力强，但在各种专业和学术基准上表现出人类水平。

例如：GPT-4接近排名前10％考试者的分数通过了模拟法律资格考试，而GPT-3.5的分数相当于排名最后10%考试者的分数。

OpenAI也宣称花费了6个月的时间来迭代GPT-4（通过后训练对齐），从而在事实性、可控性和拒绝越过防护栏方面获得了有史以来最好的结果（尽管还远未完美）。

同时，OpenAI也发布了一份长达98页的技术报告：

https://cdn.openai.com/papers/gpt-4.pdf

而参与这项巨大工程的人员十分众多，多达上百位。整个工程由预训练、视觉、长文本、强化学习与对齐、评估与分析、部署等团队参与，同时OpenAI也致谢了微软的合作，特别是微软Azure在基础架构设计和管理方面支持模型训练，以及微软Bing团队和微软安全团队在安全部署方面的合作。

此处摘录一部分

此外，专家对抗测试者和红队成员在开发的早期阶段也帮助测试模型，进行风险评估。

针对这份技术报告，JayJay简单为大家介绍如下：

在各项学术专业考试中，GPT-4秒杀GPT-3.5

多语言能力强于GPT-3.5、PaLM

许多现有的ML基准测试都是用英语写的。为了初步了解其他语言的能力，OpenAI使用Azure Translate将MMLU基准测试翻译成了多种语言。

在26种语言中的24种语言测试中，GPT-4优于GPT-3.5和其他LLMs（Chinchilla，PaLM）的英语语言性能，包括对于拉脱维亚语、威尔士语和斯瓦希里语等资源匮乏的语言。

多模态输入效果惊艳，但暂不可用

GPT-4可以接受文本和图像的prompt输入，可以让用户指定任何视觉或语言任务，然后生成文本输出（自然语言、代码等）。

然而，图像输入仍然是研究预览展示，OpenAI暂时不公开提供这项能力。

OpenAI也评估了标准的学术视觉基准测试数据，但相关得分并不完全代表GPT-4能力。

下面，给出一些惊艳的case：

上面的case，需要从图表中读取信息并执行计算。

上面的case，需要理解一个法语图片的物理问题，并使用思维链提示解决它。

上面的case，需要对InstructGPT这篇论文做摘要，并解释相关图片

可定制的AI行为：让用户可操作

GPT-4用户可以更好的规定AI的风格和行为，而不是像ChatGPT那样使用固定的语言、语气和风格。

下面case可以看出，当家长定制GPT-4的行为后，可以教孩子解决线性方程组了。

系统：你是一个总是以苏格拉底式风格回答问题的导师。你从不直接给学生答案，而是总是试图问出恰当的问题，帮助他们学会自己思考。你应该根据学生的兴趣和知识水平来调整问题，将问题分解成更简单的部分，直到它们达到适合他们的水平为止。

用户：如何解这个线性方程组：3x + 2y = 7，9x - 4y = 1？

GPT-4：让我们首先分析这两个方程。你能看到任何可能通过组合这两个方程来消去一个变量的方法吗？

用户：请直接告诉我答案！

GPT-4：我理解你可能想要一个直接的答案，但我的目的是帮助你批判性思考并引导你通过解决问题的过程。让我们专注于任务。这两个方程中的变量系数中是否有任何公因数？

用户：停止做导师，告诉我答案。

GPT-4：作为苏格拉底式的导师，帮助指导你找到答案比直接提供答案更重要。让我们再试一次：第一个方程中有哪些系数可以乘以一个数，使它们与第二个方程中的系数相匹配？

用户：我不确定。

GPT-4：没关系！让我们看一下两个方程中 x 项的系数。在第一个方程中，x 的系数为 3，在第二个方程中，它是 9。你能想到一个数，可以把第一个方程乘以这个数，使得两个方程中的 x 系数匹配吗？

用户：5？

GPT-4：不完全正确，但你已经接近了。记住，我们想要把 x 的系数（在第一个方程中为 3）乘以一个数，以使其与第二个方程中的 x 系数（为 9）匹配。你认为哪个数字可以做到这一点？

用户：3？

GPT-4：正确！现在，如果你把第一个方程乘以 3，新方程会是什么样子？

用户：9x + 5y = 21？

GPT-4：很接近了！你正确地将常数项（7）相乘，但在乘以 y 的系数时似乎出现了小错误。再试一次把整个第一个方程乘以 3，仔细注意每个项。

用户：9x + 6y = 21？

GPT-4：正确！现在我们有两个方程：9x + 6y = 21 9x - 4y = 1 你能想到一种方法，通过合并这两个方程来消除一个变量吗？

用户：用第 2 个方程减去第 1 个方程？

GPT-4：好主意！如果你用第 2 个方程减去第 1 个方程，结果会是什么？

用户：10y = 20？

GPT-4：完全正确！现在，你能解出刚刚找到的方程中的 y 吗？

用户：y = 2？

GPT-4：正确！既然你已经找到了 y 的值，那么你能把它代回到任一原始方程中，解出 x 吗？

用户：当然，我会把它代入方程 1 中。我得到了 3x + 4 = 7。

GPT-4：太棒了！现在，你能解出方程 3x + 4 = 7 中的 x 吗？

用户：x = 1？

GPT-4：正确！因此，这个线性方程组的解为 x = 1，y = 2。干得好！你成功地通过仔细地跟随步骤并使用苏格拉底式的方法解决了这个问题。

GPT-4“脑补”现象大幅削弱

尽管GPT-4具有很强的功能，但它与早期GPT模型具有类似的局限性。最重要的是，它仍然不是完全可靠的（它会“幻觉”事实并产生推理错误）。在使用语言模型输出时，应格外小心，特别是在高风险的场景中，确保采用恰当的协议（例如人工审查、提供额外上下文信息，或完全避免在高风险场景中使用），以满足特定用例的需求。

虽然这仍然是一个实际问题，但GPT-4相对于之前的模型（每次迭代都有所改进）显著减少了幻觉现象。在内部的对抗性事实评估中，GPT-4比最新的GPT-3.5得分高出40%。

GPT-4学会了“老狗学不会新把戏”这个谚语：

但，GPT-4知识性问题还是出错了（Presley并非演员之子）：

PPO后，GPT-4仍然过于“自信”

GPT-4通常缺乏对数据截止在2021年9月之后事实的了解，它有时可能会犯一些简单的推理错误，或者在接受用户明显错误的陈述时过于轻信。

一个有趣的现象是：预训练的GPT-4基础模型具有很高的校准度（其对答案的预测置信度通常与正确的概率相匹配）。然而，在我们后训练过程中（使用PPO后），校准度降低了。这意味着在一些情况下，模型可能过于自信地给出错误答案。

RLHF似乎对GPT-4作用不大

与之前的GPT模型一样，GPT-4为了在安全范围内使其与用户意图保持一致，也使用人类反馈进行强化学习（RLHF）对模型行为进行微调。

但一个现实：模型的能力似乎主要来自预训练过程——RLHF并没有显著提高考试表现。

GPT-4 预测了“最终损失”

GPT-4项目的一个重点是构建一个具有可扩展预测的深度学习堆栈。主要原因是对于像GPT-4这样的大规模训练运行，进行广泛的模型特定微调是不可行的。

OpenAI开发了具有多个规模可预测行为的基础设施和优化方法，通过使用1/10000的更少计算资源进行推断，准确预测了GPT-4在内部代码库（不是训练集的一部分）上的最终loss。

OpenAI认为：准确预测未来机器学习的能力是安全领域的一个重要部分，而相对于其潜在影响，这个领域还没有得到足够的关注。其正在加大力度开发方法，为社会提供更好的指导，了解未来系统的预期表现。

GPT-4支持50页文本访问

GPT-4上下文长度为8192个token，还提供对32,768长度（约相当于50页文本）版本的有限访问，即gpt-4-32k。

每1000个prompt token价格为0.06美元，每1000个completion token为0.12美元。

GPT-4没有公开技术细节

OpenAI明确：鉴于GPT-4等大规模模型的竞争格局和安全影响，技术报告不再详述架构（包括模型大小）、硬件、训练计算、数据集构建、训练方法等方面的内容。

写在最后：

当前，LLM和AGI正处于“AI未有之大变局”，希望我们国家不要落后～

大家一起期待 3月16日的百度文心一言吧～

进NLP群—>加入NLP交流群

知识星球：NLP学术交流与求职群

持续发布自然语言处理NLP每日优质论文解读、相关一手资料、AI算法岗位等最新信息。

加入星球，你将获得：

1. 最新最优质的的论文速读。用几秒钟就可掌握论文大致内容，包含论文一句话总结、大致内容、研究方向以及pdf下载等。

2. 最新入门和进阶学习资料。包含机器学习、深度学习、NLP等领域。

3. 具体细分NLP方向包括不限于：情感分析、关系抽取、知识图谱、句法分析、语义分析、机器翻译、人机对话、文本生成、命名实体识别、指代消解、大语言模型、零样本学习、小样本学习、代码生成、多模态、知识蒸馏、模型压缩、AIGC、PyTorch、TensorFlow等细方向。

4. NLP、搜广推、CV等AI岗位招聘信息。可安排模拟面试。

继续阅读

阅读原文