最近一周 ChatGPT 大火,它确实有着让人欲罢不能的魔力~
本周真格投资副总裁林惠文带来了一次即时分享。关于 ChatGPT 的发展历史、背后的技术原理、相关领域的投资趋势,以及他体验后的感受。我们将分享整理成文,希望延续这场讨论,欢迎在评论区留言互动~
上周四, OpenAI 发布了一个 AI 聊天机器人 ChatGPT,真的很上头。借此机会,我想做一些有关 ChatGPT 体验、和 GPT-3 的对比、ChatGPT 提升的核心点与原因、NLP 发展的前世今生、以及未来投资趋势的分享。
之前像 GPT-3 还有 META 等其它 AI 机器人,使用起来很难带来颠覆性的感受。在体验过其他的之后,ChatGPT 真的太革命了!
下面,直接上体验过程:
比如,你问 ChatGPT 能不能以鲁迅的风格写一段话,表达我现在因为疫情不敢出门的害怕,还有想吃火锅的心情。大家可以看下图中,ChatGPT 用鲁迅的风格回复了很多有意思的东西。
比如,再试试看用柏拉图的口吻,给年轻人提出一些建议?在下图右侧。
这也还不是最有趣的。最有趣的是,它有很强的上下文连接的能力。
比如说,我昨天晚上测试让 AI 帮我写一个朋友圈,表达我喝完咖啡睡不着的心情。它给出了一段很有趣的文字。当我再追加一个问题,“能不能加一些夸张的成分”,它就在中间用了大量夸张的成分,“我喝了一杯咖啡,它就像一颗炸弹炸开了我的大脑……”。具体内容,可以看下图。
ChatGPT 在体验过程中,给人最大的感觉就是,它有非常强的对知识的理解能力,以及能非常精准地判断出人提问的意图。这些能力带来了非常强的效果,以及非常强的连续问答能力。
更深层次的,它在代码层面,也就是对强逻辑的东西,也有非常强的生产能力。比如,我让它用 Golang 写一段代码,它能写一个天衣无缝的代码,并给它做一个合理的解释。包括,在网上大家分享了很多让 ChatGPT 去找 bug、改bug,它同样不在话下。
与 GPT-3 的对比
让我们来和 Open AI 发布的上一个产品 GPT-3 做一个比较。GPT-3 发布在 2022 年初,其实只热了一周左右,就很少有人再去玩了。原因是,大家发现它经常回答的牛头不对马嘴。
这里有一个例子,“给 6 岁小朋友解释一下月球登陆”,它开始重复没有意义的回答,并泛化到一些其他内容。
这其实体现出过去训练中一个很大的问题,它只会找不同问题之间的相关性,把相关性搬给你,但它并不了解你真实想要的答案是什么样子。
但到了 ChatGPT 的时候,它能够比较精准地知道提问者的用意以及期待的答案。大家一定要记住“期待的答案”,因为后面会讲到它为什么能做到,以及有一个对比。
比如问 GPT-3 “为什么鸟类要往南方迁徙?”,它的回答甚至是错的。因为在它过去训练的语义里,它捕捉到的信息是“因为北方太冷,南方暖和”,于是它把“北方太冷”放到答案里。但把问题中的主语变成“迁徙到南方”,它的回答就变成了南方太冷。这是一个泛化错误的问题。
ChatGPT 提升的核心点
切入到很重要的点,为什么 ChatGPT 能够提升?它提升的核心点到底是哪些?

对比之前所有的训练的模型,我们发现它:
1、敢于质疑不正确的前提
2、主动承认错误和无法回答的问题
3、大幅提升了对用户意图的理解
4、大幅提升了结果的准确性
抽象来说,它能更精准地拿捏人类的意图,并输出和人类意图一致的结果。大家之所以这次能玩得这么疯,不断地跟它对话,核心就是这一点:是它对人类意图的理解达到了非常高的高度。对话轮次的提升是结果,根本的原因是它更理解了人类的意图,并且不断地去给你对的回复。
ChatGPT 提升的原因

从技术层面来看,ChatGPT 提升的一个最大的原因是:加入了基于人类的反馈系统(Reinforcement Learning from Human Feedback)。
讲这个之前,我先介绍一下之前的训练系统。之前的很多训练系统,其实更多的是一种分类,是一种文字相关性的判断。
比如你问“什么是香蕉?”,过往它会在网络上摘录,大量的抓取很多关于香蕉相关的词条。但是当你再问复杂问题,它是根本没有办法回答你的。
这个系统的转变就在于,人(标记者 Labeler)的参与。
它首先会从问题的库里抽取一些问题,就比如“什么是香蕉?”;然后把这个问题下发给标记者,标记者书写出他比较期待的答案(比如说“香蕉是一种水果,从香蕉树……”);通过人的参与之后,最后这个答案会用来优化 GPT-3.5 的训练过程。
这样的训练会产生一个初步的模型。
然后,系统会采样一些问题,将模型给出的答案与人类标记者手写的答案混合,然后交给标记者对混合后的答案质量进行排序:
比如再次看到“什么是香蕉?”这个问题时,它会列出一小部分模型给出的答案,例如“香蕉是芭蕉科”,“香蕉从属性来说与草莓、葡萄、猕猴桃是亲属”,“香蕉是芭蕉科植物甘蕉的果实”等等,同时会把标记者的答案掺杂进来,比如刚才标记者写的“香蕉是一种水果,从香蕉树……”。
这些掺杂的答案,会再一次交给标记者(Labeler)。让大量的人类标记者(一定是大量的标记者)对答案的质量做排序,用整个排序的结果生成一个奖励模型(Reward Model)。
当整个奖励模型和调优后的 GPT-3.5 模型都成熟以后,当你问系统:“你能不能帮我写一个水獭的故事”。
第一步:它首先会到自己的模型中去生成一段结果;
第二步:将生成的第一版结果放在奖励模型中得到一个优化的参数。如果它认为这个优化还不够好,就会在得到一个矫正参数以后,再把这个矫正参数扔回到这个模型里面,让它再去生成一版结果,再去输入到奖励模型。它会判断是否达到人类倾向的答案,如果还不达到,就继续迭代优化。
第三步:直到迭代优化输出到一个阈值,它认为可以成为人类可以阅读,并接近人期待的答案结果时,它会停下来,输出这个结果。
人类反馈系统的引入,是整个 ChatGPT 提升的核心原因。
NLP(自然语言处理)的前世今生
接下来,我用倒叙的方式讲一下抽象出来的 NLP 历史,简单回顾,整个过程是怎么演进而来的?
首先,ChatGPT 有一个兄弟系统,叫 InstructGPT,但这个并没有上线。这是 2022 年 2、3 月出现的。它有一些严重的问题,比如很多问题的答案会收缩到非常重复的轮次里,或者说是结果上,所以并没有发布出来。ChatGPT 优化了这个系统,在今年公布了。
再往前推就是 GPT-3,这是在 2020 年引发巨大轰动的一个系统。它之所以引发巨大轰动,因为这是第一次有训练者使用海量数据和巨量参数形成的系统,在体验的时候已经能够感受到它智能的提升。但是它没有与人多轮次对话的能力,是因为它不理解人期待的结果,给不出人期望的答案。以至于你感觉它在回答某一个问题的时候很懂,但没法跟它长期的对话下去。
2019 年的 GPT-2 其实是 GPT-1 的一个提升。GPT-1 第一次使用了 Transformer 模型,尝试用大量数据开始训练。GPT-2 是大力出奇迹, GPT-3 更是大力出奇迹,在整个结果上得到了一些提升,但没有达到人想要的效果。
再往前捋捋,其实最重要是 2017 年 Google 提出的论文 Transformer。大家可以看到,其实整个 GPT 只是 Transformer 模型的一个分支,是从 decoder 模型分离出来的一个分支。
在人工智能 NLP 的历史里面,比 Transformer 更早的阶段是卷积神经网络,也就是整个神经网络的架构。有关卷积神经网络架构的研究,开始于 1990 年。人们尝试用人脑的结构去训练一个智能系统,去实现 NLP 或者对图像的识别。2006 年 Hinton 的突破以后, 2015 年开始繁荣。
2006 年突破后遇到的最大的障碍是,它的训练需要大量的存储和巨量的运算,也就是 GPU 一定要成熟。2010 年 GPU 开始成熟以后,大家开始尝试着训练卷积神经网络下的架构。直到 AlphaGo 出来以后,大家发现这条路可行,然后慢慢的到 2015 年开始繁荣。
下面,我再来总结一下发展趋势。
基于规则的系统就是手写规则,简单粗暴,只能处理非常少量的数据以及非常少的分类。
而机器学习就是主动找到一些函数或者参数去分类固定量的数据,适合分类一些二元的或者 N 元的东西( N 少于某一个值)。比如分类黄豆和绿豆,这种特征非常明显的东西。
再演化到后来就产生了神经网络,尝试着像人脑一样去学习,开始尝试大量的数据。但神经网络的一大问题是,训练的成本和提前标注本身可能会产生偏差,而且它一定需要提前标注。这就是为什么对于很多 AI 的创业者来说,标记数据需要大量的成本,且容易产生偏差,同时需要大量的收集数据的反馈。
Transformer 带来的一大变化,是不需要提前标注大量数据,同时把整个系统的学习和理解又提升了一个层次。过往神经网络的学习,其实就是给它投喂大量标记好的数据,它照着这个规则去摸索。但 Transformer 带来的一个变化就是,更多的让它理解是一个句子或输出里什么是重点,而不是让它关注所有的东西,也就产生了一个更大幅度的优化,产生了更好的效果。
其实这就跟人脑本身思考的过程和观察的过程越来越像。
再到 GPT-3 的时候,Open AI 尝试能不能投喂海量的学习数据,花费了 1200 万美金,但起到的效果只是它对某个领域产生了更深的理解,而并不能跟人产生持续的对话。
我们从整个趋势中也能看到 ChatGPT 起到的作用,就是让它学习了海量的数据之后,继续对它学习数据和输出数据的偏好产生影响。让它以人类本身的偏好,输出和排序结果。当你问 GPT 一个问题的时候,它会同时生成 100 个答案。这些答案根据过往收集到知识的相关性进行排序,同时会更加倾向于人类本身的偏好。
其实过往所有的摸索都围绕“算法”和“数据量”这两个层面展开。算法其实更像是人的 DNA,找到更好的算法,会让 DNA 更加的高级,更加的复杂,更加的有效。投喂数据量就是“你既要聪明还要努力”。
从最早机器学习到开始找算法,再到后来 GPT 开始投喂大量的数据,大家都是在这两个层面上去努力。ChatGPT 提出的模型就是:每走一步都要观察一下人类的反馈,朝着人类期望的方向进发。于是今天,大家在玩这个 ChatGPT  的时候,达到了非常非常优质的效果。
这个事情再脑洞一下,未来基于人类反馈的训练系统能不能拓展到更多的领域,比如说情感,比如说更多垂直行业领域。再往遥远的未来去想,那我们能否去找到一个 DNA、找到一套算法,它的能量能够突破人脑结构限制?这一部分突破以后,我觉得整个 AI 系统能够达到更深的层面。
从 ChatGPT 看未来的投资趋势
从投资的角度来说,我觉得应用层面会出现新的 AI+ 的机会,例如:
1、诞生更专业的客服机器人和机器翻译
2、创业者朝着更垂直更专业化的 AI 进发(医疗、教育等)
3、出现新的创业机会,即 AI 基础设施的机会(模型运维,管理,训练等)
未来,大概率会是大模型流行的时代开始。大模型背后是巨大的数据量和复杂的运维过程,模型运维管理和训练都会成为很大的挑战, AI 基础设施的投入可能也是一个好的投资机会。
对于创业团队来说,需要考虑就是大模型的流行本身就是成本的上升创业团队初始成本的上升,团队能融资能力的上升。另外就是训练成本会持续地迭代上升。在竞争过程中,团队对于产品的定位,对于商业模式的把量也很重要。
以上的内容如有错误,欢迎大家进行指正。如果你也对 ChatGPT 感兴趣,欢迎在评论区与我们直接互动~也可以在原文链接中查看代码家的分享ppt~
参考文献:

1. https://openai.com/blog/chatgpt/
2. https://openai.com/blog/instruction-following
3. https://beta.openai.com/docs/model-index-for-researchers
4. https://mp.weixin.qq.com/s/haaL-2XjRG0oS24pQyqw1A
5. https://easyai.tech/ai-definition/nlp/
6. https://www.exxactcorp.com/blog/Deep-Learning/deep-learning-in-natural-language-processing-history-and-achievements
7. https://dennybritz.com/posts/wildml/understanding-convolutional-neural-networks-for-nlp/
8. https://github.com/sw-yx/ai-notes/blob/main/TEXT.md#jailbreak
9. https://xiaosheng.run/2022/04/04/transformers-biography.html
10. https://zhuanlan.zhihu.com/p/43493999
11. https://zhuanlan.zhihu.com/p/350017443
12. https://easyai.tech/ai-definition/attention/
13. https://medium.com/walmartglobaltech/the-journey-of-open-ai-gpt-models-32d95
更多被投新闻
格灵深瞳 | 曦智科技 | 来也科技 | 星亢原
东方空间 | 循环智能 | 诗云科技 | 赛舵智能
推荐阅读
继续阅读
阅读原文