生成式人工智能及其流行的Transformer模型如今无处不在,新模型每小时都在发布(参见人工智能的通货膨胀)。在这个迅速发展的人工智能领域,这些模型可能带来的价值似乎是无穷的。像chatGPT这样的大型语言模型(LLM)已经成为每个工程师资源堆中的一部分,作家们使用它们来支持他们的文章,设计师们利用它们创造初步视觉效果或从计算机视觉模型的结果中寻找灵感。

如果不是魔法,那是什么真正驱动这些令人印象深刻的Transformer模型的呢?
然而,尽管成就巨大且实用性强,生成性人工智能增强了生产力,但重要的是要记住,现代机器学习模型(如大型语言模型或视觉Transformer)根本没有进行任何魔法般的操作(这与机器学习或一般统计模型从未具有魔法性质的事实相似)。即使模型的卓越能力可能被视为类似魔法,一些领域专家甚至谈论模型的“幻觉”,但每个模型的基础仍然只是数学和统计概率(有时复杂,但仍然是数学)。这引出了一个根本性的问题:如果不是魔法,那么究竟是什么真正驱动了这些令人印象深刻的Transformer模型?
所有模型的基础是数据
在任何模型(统计或机器学习)中,对后期模型性能影响最大的是训练数据。如果你没有大量高质量的数据来反映你希望模型学习的关系,就没有东西可以训练,结果模型的表现会很差(著名的GIGO原则:垃圾进垃圾出)。数据建模的这一基本原则多年来一直没有改变。在每一个革命性的新型Transformer模型背后,首先就是一件事:数据。正是这些数据的数量、质量和上下文将驱动模型后续的性能。最近的研究(见下文)支持这一点,展示了最新的生成性AI模型在提供的上下文是训练分布的一部分时泛化得很好,但对于分布外的学习表现不佳。
在分布内学习与分布外学习
请记住,模型不过是一个巨大的网络、树状结构或关系图。机器学习模型基本上学习的是如何将给定输入转换为期望输出(见图1)。
图 1
上图是一个超简单神经网络的示意图,基于天气和其他上下文预测人流量。左侧是训练期间的输入(特征),而右侧是输出(目标)。中间可以有几个转换(层),它们学习复杂的输入输出关系。
当模型被训练(或者换句话说:当这些关系被更新时),输入的上下文和输出的信息量将决定模型擅长什么。就像人类擅长用母语回答问题一样,机器学习模型擅长回应它们见过很多次的输入数据。这被称为分布内学习。如果在训练期间,模型被提供了大量丰富的上下文,它可以依赖后来获得的这些知识,结果预测表现出准确的性能。
分布外学习则描述了一个模型需要基于它之前未见过的情境进行预测的情况。你可以想象一个从未学过挪威语的人突然回答用挪威语提出的问题。请查看图2以获取分布内和分布外学习的概览。
图 2
上图展示了分布内(左)与分布外(右)学习。左侧的模型对于未包含在原始训练数据中的新情境(在这个例子中是“政治”)表现不佳,而右侧的模型对于未见过的情境表现良好。机器学习模型通常属于左侧类别,并且在分布外学习中表现不佳。
现代大型语言模型(LLMs)和其他机器学习模型之所以表现出色,是因为原始训练数据中包含了大量的体量和上下文信息。由于这些模型进行了广泛的预训练,能够处理的问题范围非常广,属于分布内学习的问题非常多。这使得模型能够回答各种问题,对用户来说可能看起来像是魔法或者具有人类水平的智能,但实际并非如此。同样,模型给出错误或意外的答案也不是真正的幻觉,它基本上突显了原始训练数据中的上下文缺口,因此导致了分布外学习。总的来说,机器学习模型在分布外学习能力上非常有限,需要对基础模型进行大量的训练。
语言模型中预训练的力量
在谷歌DeepMind成员最近的一篇论文中,作者们加强了这样一个论点,即现代大型语言模型(LLMs)的上下文学习性能主要源自它们的预训练分布。这篇名为《Pretraining Data Mixtures Enable Narrow Model Selection Capabilities in Transformer Models》的论文由Steve Yadlowsky、Lyric Doshi和Nilesh Tripuraneni(2023年)共同撰写,专注于探讨现代Transformer模型是如何获得它们令人印象深刻的上下文学习能力的(即它们对任何提示给它们的上下文都能给出答案的能力)。
论文:https://arxiv.org/abs/2311.00871
这些发现非常有洞察力。当Transformer模型在涵盖广泛上下文的数据上进行预训练时,它们在学习属于预训练上下文范围内的新任务时表现出令人印象深刻的性能。这种能力接近最优,展现了在训练分布内令人印象深刻的泛化和适应能力。然而,当这些模型遇到预训练领域之外的上下文时,性能受限且会发生失败。这表明了泛化能力降低和对分布外上下文的明显限制。
视觉Transformer:一个关于规模的案例研究
在另一项研究中(同样由谷歌DeepMind在2023年进行),题为“ConvNets Match Vision Transformers at Scale”,作者 Samuel L. Smith, Andrew Brock, Leonard Berrada, and Soham De挑战了一个在计算机视觉领域广泛存在的观点,即在大规模数据处理上,现代的视觉Transformer模型会胜过传统模型,如卷积神经网络(CNNs)。该研究对CNNs和视觉Transformer进行了相同计算预算下的训练,并比较了它们的性能。
论文:https://arxiv.org/abs/2310.16764
结果表明,在预训练中使用的计算预算与后续性能之间存在一个比例定律。在对ImageNet进行微调后,预训练的CNN在相当的预算下达到了与视觉Transformer相匹配的性能。
总结
这两项研究共同展示了现代Transformer模型令人印象深刻的性能。首先,性能的提升不仅仅是由模型架构驱动的,更多是由预训练的数量所驱动。其次,当预训练的上下文覆盖范围广泛时,得到的模型也将展现出广泛的上下文学习能力。
这些研究强调了一个关键原则:训练数据的数量、质量和上下文是任何基础机器学习模型最重要的部分。如果不了解预训练涵盖的上下文,就很难预先确定模型在哪些领域表现良好。基准测试可以帮助指出潜在的上下文限制。这些测试并不展示模型总体上的表现如何,它们主要展示了哪些上下文已经成为模型训练分布的一部分。
总之,在人工智能时代,随着开发机器学习模型的数据科学家和工程师数量的增加,通过广泛的上下文进行预训练不仅仅是过程的一部分;在很多方面,这已经是你所需要的全部。
原文:https://towardsdatascience.com/pre-training-context-is-all-you-need-f457ffa8a358
继续阅读
阅读原文