大语言模型 LLM 之死

Stack Overflow 是一个全球软件程序员社区，在获得美国顶级投资机构 A16z 与 USV 等超过 1.3 亿美金的融资后，于 2021 年被全球最大技术投资者 Prosus 以 18 亿美金收购。

不过，自今年 3 月 OpenAI 推出 GPT-4 以来，该网站流量就明显下降了——4 月的流量，较去年同期下降了约 13%。

核心原因是：软件工程师们不再来到该网站提问并从其他程序员那里获取技巧，而是转向了 GPT-4、ChatGPT、Codex 或者 GitHub Copilot 寻求帮助。

讽刺的是：一些 AI 模型本就是根据该网站的数据训练而成，并且数据全部是被免费抓取。

这一事件，也揭示出了 AI 革命核心中一个迫在眉睫的问题，那就是：

随着人类不需要与其他人打交道就可以获得信息，以及人们上网回答问题的动力减弱，AI 训练所需要的丰富的人类数据将会枯竭，模型的质量可能会下降。最近，伊隆.马斯克称这种现象为是——“LLM 的死亡”。

事实上，所有 AI 模型都需要稳定的高质量的人类数据流，否则，将不得不依赖于机器自己生成的内容进行训练。

但根据研究人员的说法：机器再“吞食”机器自己产生的内容，将导致性能下降，也就是导致发生可怕的“模型崩溃”。

令人恐惧的是，根据欧洲刑警组织的一份报告：预计未来几年，90% 的互联网内容，都将由人工智能生成。互联网，将越来越让人感觉到它是为机器而设计并由机器设计的。

那么，有什么办法可以解决这个问题吗？……

本文剩余内容的主要摘要如下

美国互联网界是如何解决这个问题的？目前为止，AI 公司中做出最好表率的可能是 OpenAI，具体 OpenAI 在内容/数据获取方面已经做出了哪些可以借鉴的动作？需要大家到我的知识星球阅读。

说明：因为各种各样的原因，我在微信公号写的东西和我在知识星球写的不太一样，关心美国创投圈的专业读者，请移步到我的知识星球。如下扫码登录（老星球用户续费请见底下那个二维码）

老星球用户续费请用这个二维码：

怕错过文章就把这个公号设置为“星标”吧

继续阅读