ChatGPT对人类语言的“理解”的超能力,确实非常惊艳,真的有了语言“智能”,那么这种超能力是如何获取到的呢?

用第一性原理来思考,“概率思维”是它能获取此种超能力的根本原因。也许,人类真的就是一种概率思维的高级动物。而ChatGPT深刻理解了这一点,加上它的超级计算能力,将概率思维发挥到了一个和人类差不多的水平。

说到概率思维,不得不说这个人和这个公式。

对,就是贝叶斯和贝叶斯公式。

D表示观察到的现象或收集到的证据(数据),H表示可能得到的结论或是假设,X表示后面的模型,对应到ChatGPT,就是后面的大语言模型(LLM,Large Language Model),用Transformer来表达。

这是概率思维的基础,当然就是ChatGPT的基础。那么ChatGPT是如何炉火纯青的使用的呢?

世界上的语言的形式,都是由字(Letters)组成词(Words),然后词组成词组(Phrases),然后词组组成句子(Sentences),然后句子组成段落(Paragraphs),最后段落组成文章(Articles or Chapters)。
比如这篇文章的标题,“ChatGPT如何获取的超能力”是一个句子,是由
ChatGPT、如何、获取、的、超、能力
组成的。这些词,可以做各种的排列组合,比如“ChatGPT的超能力如何获取”,“超能力的ChatGPT如何获取”,“的能力超获取ChatGPT如何”,“超获取如何能力ChatGPT”,等等,那么为什么我们选择了上面的标题,而没有选择其它的组合,是因为在我的大脑中的大模型(LLM)下,“ChatGPT如何获取的超能力”的概率最大。下面详细解释。
给定一些初始提示或语境序列 x=x1,x2,...,xk,ChatGPT被预训练来估计文本中出现的文本序列 y=y1,y2,...,yt 的概率P(y|x, chatgpt-llm)。由于训练数据比较大,来直接估计P(y|x, chatgpt-llm)是不切实际的,所以通常使用概率链规则来将其分解为条件概率的乘积。

通常通过两边求log将乘法转换成加法。

其中 y<t 是序列 y1,...,yt-1 的文本词。从这些条件概率中,可以推断出,语言建模相当于在一个句子中给定前面的词来预测每个词。

选择哪个排列组合最合适的时候,可以有不同的策略,有贪婪搜索(Greedy Search),集束搜索(Beam Search),温度采样(Temperature Sampling),等等。

贪婪搜索就是每次选择每个决策时间点上概率最大的选项。
这个策略的问题是容易产生重复的输出序列。

集束搜索就是每次选择每个决策时间点上概率最高的几个选项,常说的top k。比如,如下图,每次选择概率最高的两个选项。这个显然增加了搜索和计算的路径,贪婪搜索只有一条路径,而集束搜索则会指数级增长。

Top k 工作机理。

温度采样是通过添加一个温度参数T来轻松控制输出的多样性。
通过调整T,可以控制概率分布的形状。当T<<1时,分布在原点周围变得尖锐,罕见的词被压制。当T>>1时,分布变得平缓,每个词的可能性接近。

ChatGPT基于以上描述的概率思维来获取它的超能力的。
首先,ChatGPT有人类语言中的所有词(又称token),这是它的搜索空间。
然后,精心选择高质量的文本数据(包括代码),训练Transformer模型,需要很多的GPU算力,进行大量的矩阵运算,达到预定的训练目标即可结束训练。这里,Transformer模型是一个包含所有token的概率模型或开放空间。
然后再用含有人类反馈的强化学习(RLHF)来进一步调整Transformer模型来适应人类的价值观和使用规则。现在,Transformer模型被人类调教后的包含所有token的概率模型或限制空间。
最后,执行任务的时候,就是给出一些提示tokens,或上下文context,在Transformer构成的所有token的限制空间中使用贪婪,集束,温度采用等策略来找到概率最大的可能的token的排列组合。这个组合,就是看到的ChatGPT的输出。在这个过程中,生成的部分的排列组合,会和之前的上下文一起作为新的上下文引导新的搜索。
简而言之,ChatGPT是在一个由人类语言所有token组成的概率空间中,通过计算概率,寻找一个满足当前上下文和限制条件的一个近似最优的token的组合序列。
获取最新的科技和后面的思考,扫二维码关注我的视频号。

继续阅读
阅读原文