OpenAI 承认 GPT-4 变懒，称暂时无法修复，这意味着什么？为何会出现这一状况？

深度学习自然语言处理分享

对于越来越严重的GPT-4偷懒问题，OpenAI正式回应了^[1]。

还是用的ChatGPT账号。

我们已收到相关反馈！自11月11日以来没有更新过模型，所以这当然不是故意造成的。模型行为可能是不可预测的，我们正在调查准备修复它。

也就是段时间内还修复不好了。

然而网友并不理解，“一遍一遍使用同一个模型，又不会改变文件”。

ChatGPT账号澄清：

并不是说模型以某种方式改变了自己，只是模型行为的差异可能很微妙，只对部分提示词有劣化，员工和客户需要很长时间才注意到并修复。

更多网友反馈，赶快修复吧，一天比一天更糟糕了。

现在不但更懒，还缺乏创造力，更不愿意遵循指令，也不太能保持角色扮演了。

知乎：段小草^[2]

先把解决办法放在前面：

第一，使用 GPT-4 Classic，或者 Data Analysis，不要用默认的 ChatGPT-4；

第二，如果喜欢用默认的 GPT-4 或者其他 GPTs，可以尝试大佬总结的终极自定义指令，这套指令堪称魔法指令的集大成者，内含 COT 思维链+道德绑架+情绪价值+威逼利诱，亲测有效：

自 11 月 11 日以来没有更新模型，那问题有没有可能就出在 11 月 11 日的更新呢…

众所周知，11 月 6 日，OpenAI 召开了 DevDay，发布了 GPTs，之后把模型升级为 GPT-4-Turbo，并将原有的插件统一归为 All-tools 功能。之后大家被新奇的 GPTs 所吸引，又被 OpenAI 的宫斗大戏吸引注意力，所以没太注意到 GPT-4 的能力变化。ChatGPT 的官方解释…跟没说一样，总之就是模型能力不可预测。

其实对于 GPT-4 能力变化的讨论一直都有，之前 OpenAI 的员工 Logan 也澄清过：

API 中的模型不会更改；ChatGPT 的性能总在不断变化。这个变化，可能是指产品层面的功能，也可能是 system prompt，也可能是别的功能微调。这些都会在一定程度上影响到 ChatGPT 的表现。所以有人提到 ChatGPT 是因为到年底了所以懈怠，虽然玄学但可能并不一定毫无道理，毕竟 ChatGPT 的系统指令里，每次都会告诉它今天的日期。就好比之前我们说，对 ChatGPT 更礼貌会不会得到更好的回答一样；万一 ChatGPT 就是觉得圣诞节该放假了，想休息一下呢…

以上。

知乎：多头注意力^[3]

仅仅是在SFT（supervised finetuning，或者常说的指令微调）阶段，只是稍微调整了一下数据，模型的行为就有可能发生一些奇怪的变化。对于OpenAI这样的公司，他的每次发布应该可不仅仅是SFT变化这么简单，很可能整个底座都进行了重新训练，面对的不确定性就更大了。而且相比于SFT，预训练阶段消耗的资源远远更大，这也导致问题比较难修复。可能光训练一个版本就要一个月以上的时间，更别提还要做各种各样的测试和评估。

OpenAI也算诚实，告诉大家这玩意儿不那么好修。其实这体现了现在大模型领域的两个很大问题：

第一个是可解释性不足。即使强如OpenAI，我相信也在训练模型的时候要面对很多不确定性，数据到底怎么mix，先训练哪些数据再训练哪些数据，都会影响后续模型的行为。

第二个是评测困难。大模型最大的魔力就是它接近一个通用人工智能，你可以用它来做很多事。有人拿他写文章，有人拿他做算数。这么多各种各样的下游应用场景如果都要面面俱到进行评测是不现实的事情。特别是像变懒、缺乏创造性这种并非完全客观的维度就更难测试了。我相信OpenAI自己是有一套评估体系的，在发布新模型前也一定是拿到了收益，但确实难以保证这个收益会体现在所有用户的使用中。

参考资料

[1]

原知乎问题: https://www.zhihu.com/question/634074112

[2]

段小草: https://www.zhihu.com/question/634074112/answer/3319544500

[3]

多头注意力: https://www.zhihu.com/question/634074112/answer/3319566136

继续阅读

阅读原文

OpenAI 承认 GPT-4 变懒，称暂时无法修复，这意味着什么？为何会出现这一状况？

知乎：段小草[2]

知乎：多头注意力[3]

参考资料

知乎：段小草^[2]

知乎：多头注意力^[3]