编译:Lavida、zhoujin、wenli
排版:Gisele
编辑:Siqi
本文编译自 No Priors 播客与 Inceptive 联合创始人兼 CEO Jakob Uszkoreit 的对谈。
Jakob Uszkoreit 是 Attention is All You Need 的作者之一,他在 Google 工作期间成立并领导研究团队改进了 Google 搜索、Google 翻译和 Google 助手等产品,有观点认为,Attention 的概念正是来自于 Jakob。
2021 年,Jakob 创立了  Inceptive ,和 Character.ai、Cohere、AdeptAI 等其他 Transformer 作者的创业不同,Jakob 选择跨界,将深度学习和生物领域的结合。Jakob 认为,mRNA 的发现和应用验证了通过编程的方式去制造具备特定功能药物的可行性,并且在制造这些具备特定功能的“指令药物”的过程中,和计算机语言一样,其实也有一系列条件语句、递归以及逻辑和循环结构等“语言”的存在,所以, Inceptive 的核心理念是,通过大量学习“生物软件语言”来让新的蛋白质、药物生成成为可能,就好像今天模型可以生成新的文章段落、图片甚至视频等。
这篇内容不只是关于 Inceptive。作为 Transformer 的重要贡献者,Jakob 也分享了自己的技术理念,例如,理解“语言”并不需要从头到尾完整地了解一个顺序信号,观察信号的某些独立组成部分也能有所收获;我们可以将一切都看作一个黑盒子,只要我们能够以足够快的速度和足够大的规模来观察这个黑盒子的输入和输出,就可能会有所收获。此外,他还认为当前模型对计算资源的分配还没有实现最优,这应该成为 LLM 下一阶段优化中需要重点考虑的问题。
以下为本文目录,建议结合要点进行针对性阅读。
👇
01 Attention 概念的诞生
02 LLM 新范式
03 Inceptive:基于“生物语言”的 LLM
01.
Attention 概念的诞生
Elad Gil :你在 Google 工作了十多年,参与了许多领先的研究团队,还在最初的 Transformer 论文中起到了非常重要的作用。我曾经与 Transformer 论文的其他作者交流过,他们都认为你是真正提出了 attention 概念的人,并为 Attention is All You Need 论文奠定了基础。能否详细介绍一下这个概念的提出、研究过程、以及它是如何成为 Transformer 这篇突破性论文的基础的?
Jakob Uszkoreit:这确实不简单,在深度学习领域,如果一项成果仅停留于理论或形式层面,而不对其工程实现(engineering implementation)进行深入探索,就无法使其真正发挥作用。能够有效推动深度学习发展的唯一途径,就是让它在当前的硬件基础上运行得更快、更高效。
有很多证据表明,我们理解语言的方式实际上是有特定层级的(hierarchical),也因为这种层级性,语言拥有了某种统计学特性。语言学家们绘制的语法树一定程度上是对这件事的验证,虽然“语法树”并不一定真实存在,只是人类研究中发明的某种工具,但它们确实捕捉到了一些语言中固有的统计特性。因此,我们可以做出一个有力假设:理解语言并不需要从头到尾完整地了解一个顺序信号,观察信号的某些独立组成部分也能有所收获。
语法树(Syntax Tree,也称作抽象语法树,即 AST)是一种用于表示句子结构的图形模型,展示了句子中单词之间的依存关系和句子的层级结构。语法树通过将句子分解为更小的组成部分(例如短语和单词),并显示它们之间的关系来描述句子的语法结构。
所以,如果当我们拥有某个可以进行计算的硬件
拾象注:此处应指 GPU,GPU 在训练 Transformer 模型时起到关键作用,由于 Transformer 模型通常涉及大量的矩阵运算,如矩阵乘法和注意力计算,这些运算可以在 GPU 上并行处理,从而大大加快训练速度)
,我们只需要利用它进行大量并行简单计算的关键优势,而不是顺序执行复杂的结构化计算,那么这实际上这就是我们真正想要利用的统计属性。

我们希望能够平行去理解图像的各个部分,虽然可能不能完全理解完整个图像,但这个过程中我们实际上可以获得其中很多内容,只有在完成了其中一部分后,我们才将这些不完整的理解或表征组合在一起。随着我们将它们越来越多地组合在一起,就可以消除最后残留的歧义。
如果我们思考这个过程是什么样子时候,就会发现它也是树状的。当我们考虑如何运行一个评估所有可能树的模型时,一个合理的近似方法就是重复一个操作,观察所有可能的组合,这就是核心的 Attention 步骤,然后,有效地为给定部分的给定表征,或其他部分的其他表征提供信息,并重复这个过程。
这个过程看起来很直观,和 GPU 的硬件特性非常匹配,也是这个想法的由来。相较于历代模型(例如,可分解的注意力模型,decomposable attention mode),Attention is All You Need 中阐述的 Transformer 架构能够被业界应用于实际业务场景,是因为它与 GPU 之间能够很好地适配。
Elad Gil :很多人都会提到的一个观点是,Transformer 架构的许多特性在模型规模放大过程中显得更加有趣。是否存在一种可能,即其他架构在大规模下也有同等有趣或更有趣的特性,但两个因素阻碍了这些特性被人们发现,第一,人们并没有大量投入资金和计算资源在其他架构上测试,第二,底层的计算硬件架构实际上对 Transformer 优化得非常好,使其他架构的性能明显差很多,所以我们可能永远不会真正测试它们。你觉得这个说法是否成立?
Jakob Uszkoreit:我认为这不重要。如果我们可以创造不同的硬件组合,用更简单的方法评估硬件与模型或架构的适配性,就可以对更多的架构进行测试。GPU 最初并不是专门为了 Transformer 而设计的,即使是为此而设计的,它们也不一定是最优的组合。
很多人在追求优化的过程中持续碰壁,但这并不是原始架构的一开始的理念。我们可以对此进行很多讨论和推理,我认为其中部分观点成立,例如,通用快速可扩展矩阵乘法器的优势,以及它在科学计算方面效果很好。
但实际上还存在很多的限制条件和特定权衡,例如内存带宽,以及固有并行性与延迟之间的平衡等等。我认为,目前的 GPU 设计在大规模深度学习中尚未达到性能和效率的最佳平衡点。因此,如果我们对不同的组合进行尝试,或许能更快设计出更优的 GPU。
Sarah Guo:当你考虑我们如何在这方面取得进展时,通常人们会认为是软件驱动硬件进步,你认为我们的计算硬件是为了适配现有的大型 Transformer 架构而设计的,还是由于新的硬件设计而得到的?这个问题有点像“先有鸡还是先有蛋”的讨论。
Jakob Uszkoreit:确实是鸡和蛋的问题,但如果我们看最新一代的计算硬件,它们在很大程度上、并且越来越多地考虑到了这一点。
02.
LLM 新范式
Elad Gil :你觉得为了提高 LLM 性能、扩大系统内存或者说实现最终价值,大家现在最应该关注哪些问题和领域?
Jakob Uszkoreit:站在第一性原理的角度,目前我更关注的问题是,我们对计算资源的分配还没实现最优。现阶段模型对特定问题的计算量取决于 prompt 的长度,prompt 越长,所需的计算量就越大。此外也取决于回答(response)的长度,以及许多不同的调整参数。
很多 LLM 对复杂问题给的结果却很短,这是因为这些问题本身表述很简短,导致即使回答难度大,计算投入也不多,比如“质因数分解”这样的问题,可能对问题的陈述很短,但问题本身很复杂。而目前用户很难对此做出调整,同时从结构上来看,模型本身也很难根据问题难易程度自动决定是否需要增加计算资源。
在这点上,我们又回到了很多人关注的问题:生成数据对于训练模型是否有意义?站在信息论(Information Theory)的角度,答案是否定的,我们很难在生成数据中获得更多的信息(拾象注:此处推测 Jakob 参考的是信息论中的香农的噪声信道编码定理(Shannon's Noisy Channel Coding Theorem),这一定理明确指出在存在噪声的通信信道中,传输的信息量是有限的,无法通过编码和传输过程获得更多的信息)。但是信息论忽略了一点,就是计算成本,而且也没有考虑到再次生成这些信息所需的能耗。
信息论(Information Theory)是一门数学理论,旨在研究信息的量、传输和处理的原理和方法。它由克劳德·香农(Claude Shannon)在 20 世纪 40 年代提出,并成为通信工程、计算机科学和统计学等领域的基础理论之一。
如果我们只是运行 LLM,生成结果,然后用这个输出来训练新的元素,甚至是同样的元素,那所做的只是分摊在某个时间点上花费的计算资源。在后续训练模型的过程中,模型开始对相同问题投入更多计算资源,但实际上这些计算已经通过系统迭代有效地分摊了。最终,在推理阶段或者运行阶段,模型就能具备决定分配多少计算资源的能力了。
这里要引入随时算法(anytime algorithms)的概念,利用随时算法,计算量就能取决于我们手中的资源。如果时间充足、财力雄厚,那就可以让模型跑久点。但在问题或答案很简单时,我们肯定不想这么做——我们只希望在问题确实很难解决时消耗计算资源。比如我们现在用冗长的 prompt 问 GPT-4 “2+2=?”,并要求生成一个复杂的答案,那它可能会无意中投入大量计算资源,这完全不合理。
以上是所有问题中我认为相对 high-level、同时也是最让我头疼的问题,因为还不清楚要如何解决。
随时算法(anytime algorithms)是为了解决在有限时间内执行计算任务的需求,可以根据可用的资源和时间限制,提供部分结果并逐步改进结果的准确性。
Elad Gil :还有其他你很关注或者正在取得重大进展的东西吗?
Jakob Uszkoreit:在基础研究领域,模型在解决不同问题时的灵活性非常值得关注。其实很多问题都可以归结为我刚刚说的如何分配计算资源,只是呈现方式不同。
还有个问题是,为什么我们的模型不能高效处理不同分辨率、不同采样率、不同时长的视觉传感器输出呢?目前很少有能处理不同时长、图像分辨率、密度或尺寸视频的模型,更别提能根据我们真正想要的内容或生成难度来调整计算量了,能做到的应该只有递归架构(recurrent architecture)。
再举个很典型的例子,我们可以找个视频,把尺寸放大增加分辨率,用简单的算法做补帧(帧插值,即用简单的算法在视频帧之间生成额外的帧),然后再运行。如果用这个视频解决的问题是相同的,那我并不希望消耗更多计算资源,但目前的情况是仍然要消耗。因此,如果缺乏解决模型弹性或灵活性的技术,将会造成极大的浪费。
Sarah Guo:有两个概念正在引起越来越多的关注。其中一个是 Meta 提出的深度自适应 Transformer(depth adaptive transformers),对每个输入进行计算量的调整,并进行相应的预测,这个方向目前的研究进展是什么样的?另外,有很多人,尤其是代码生成领域的从业者对测试时搜索(test time search)更感兴趣,因为可以通过 compilation 或其他方式进行评估,在模型内部实现一个成功的闭环。
Test Time Search 指的是在测试阶段进行搜索。通常情况下,神经网络模型在训练阶段会进行反向传播和参数更新,以学习从输入到输出的映射关系。而在测试阶段,模型会接收输入数据并生成相应的输出。
然而,在某些任务中,特别是像代码生成这样的任务中,模型的输出可能需要经过进一步的处理才能得到最终的有效结果。而"test time search"则是指在测试阶段对模型的输出进行搜索或迭代的过程。
通过进行测试时搜索,可以尝试不同的策略、参数或配置,以获得更好的模型输出。在代码生成任务中,可以通过编译或其他方法来评估模型生成的代码,并根据评估结果进行调整和优化,以获得更符合预期的代码输出。
Jakob Uszkoreit:在自定义搜索(custom search)上这个方法的确超级有效,但我个人认为这个方法太笨太原始,因为它并不容易输入和优化,这也是我之前想提的一点,很多我们还没做效率提升的地方会极大影响训练时间,也就又回到我之前说的资源分配问题,它的整体思路就是将人类已经掌握和记忆的东西分摊给计算机。
关于Adaptive Time Transformer,我们很久以前就尝试过使用通用 Transformer。因为当前计算资源稀缺,我们本应该会在各个领域中广泛看到它的应用,实际情况并非如此,原因在于它并不能有效地解决问题,而我们也尚未找到通用 Transformer 的有效优化方法。这并不是因为缺乏尝试,而是因为实验和探索还不够,且已知的或提出的方法在实践中的效果还不够出色。
03.
Inceptive:基于“生物语言”的LLM
Elad Gil :你过去几年一直专注于 Inceptive,关注如何将机器学习和不同软件应用到生物学中,请具体讲讲 Inceptive 是什么、以及你为什么会对生物学产生兴趣?
Jakob Uszkoreit :我一直对生物学感兴趣,但对这个领域并没有任何专业的理解,生物是个复杂的学科,最好的方式是在学校进行系统性学习,但我又不想回学校。与此同时,我始终觉得在生物学领域存在许多提高效率的空间,同时也有很多问题需要采用与传统生物设计方法不同的方法来解决,这些方法应该有对生命运作方式的完整概念性理解(complete conceptual understanding)。
我对人类能够达到这种程度的理解并进行干预并不抱有很高期望,我们并没有特别强大的工具,或者说是直到最近才有的。基于这种认知,我再去对需要改进的东西做出努力。
就当下来说,大规模的深度学习就是个非常好的方向。通过深度学习,我们很有可能解决以下两个问题:
第一,生物学领域仍存在许多未知的领域,我们尚未全面掌握生命中发生的所有过程和事件,更不用说真正理解所有的机制了;
第二,即使对于我们目前已知的事物,我们也尚未建立起足够准确和可预测的理论模型,以解释和预测生物学现象。
蛋白质折叠(protein folding)就是个很好的例子。即使我们假设在蛋白质折叠的环境中没有伴侣蛋白和其他物质,也很难解答蛋白质折叠的过程是什么,或者最早促使蛋白质翻译开始的动力是什么。(拾象注:在生物学中,翻译是指将 RNA 的编码信息转化为蛋白质的过程。)即使我们采用了这种极度简化的假设,传统理论仍然不够实用。
而深度学习至少是个非常好的潜在解决方案,因为我们可以将一切都看作一个黑盒子。只要我们能够以足够快的速度和足够大的规模来观察这个黑盒子的输入和输出,就可能会有所收获。
蛋白质折叠(protein folding)蛋白质折叠是指蛋白质在生物体内或实验室条件下从线性的氨基酸序列(也称为多肽链)折叠成特定的三维结构的过程。蛋白质的功能和性质主要由其折叠状态决定,如果蛋白质折叠异常,可能会导致各种疾病,比如阿尔茨海默病和囊性纤维化等。DeepMind 在 2018 年推出了 AI 预测蛋白质尚未结构工具 Alpha Fold,并在 2020 年改进推出了 Alpha Fold 2,是蛋白质折叠预测领域的一项重要工具。
Sarah Guo:Inceptive 的核心理念是什么?
Jakob Uszkoreit :首先,我们认为自己是一个反学科(anti-disciplinary)的团队,或者说并不以传统的基本学科划分为权威,我们自己正在创立一个新学科,可以算是新方向上的探索者,尽管这个学科还没有一个明确的名称,但我们从深度学习和生物学中汲取了很多灵感。
理想情况下,我们希望实验和计算模型之间形成一个循环,计算模型能够指导实验,实验结果又反过来改进计算模型。但实际情况并不那么简单,因为这种循环并不存在一个单一周期,相反,这个过程中存在许多小循环,其中涉及了神经网络的查询、数据处理、模型输入和参数调整等一系列步骤。在这个循环过程中,实验和计算模型的边界变得模糊不清。
所以我有的时候觉得我们的工作领域更像沙滩,因为那是干湿交汇的地方,象征着不同领域的融合。最早加入 Inceptive 的大多数研究者都来自深度学习、机器人技术或生物学领域,并且很快就会将这些不同领域的语言融合在一起、开始思考新的问题。
Elad Gil :Inceptive 是如何将深度学习或其他技术应用于生物学上的?
Jakob Uszkoreit :DeepMind 开发的 Alpha Fold 2 已经在大分子蛋白领域有了一些应用,长远来看能够在更广泛的场景中产生影响。
Alpha Fold 2 是由 DeepMind 开发的深度学习模型,该模型能够利用深度神经网络技术,快速、准确地预测蛋白质的三维结构。目前,Alpha Fold 2 已经成功预测 98.5%的蛋白质结构,并且在大分子蛋白领域已得到应用。
很明显,将 Transformer 应用于 RNA,特别是 mRNA,会对世界产生巨大影响。我们的终极目标是设计更好的 RNA,首先是 mRNA 分子,并广泛用于不同药物。考虑到 mRNA 在新冠疫苗上的贡献,可能其他传染病疫苗最先应用的。
如果我们看看 Moderna 和 BioNTech 等公司的 pipeline,RNA(特别是 mRNA)的潜在适用性可以说是无限的,目前已经有数百个项目在不同的开发阶段进行中,预计到 2030 年结束之前,这个数字会攀升至三位数,并且成为收入或影响力排名前三的技术手段。
我做出这个预测是因为 RNA 疫苗还远未完全实现最理想效果,当前疫苗的副作用仍然严重,还有许多患者未能接种疫苗,以及在真正需要时,很多人没有接种疫苗的资格。而现在,唯一可能迅速改变这一现状的方法就是深度学习。
Inceptive 的方法就是创建生物软件,我们可以把 mRNA 和 RNA 看作是字节码(bytecode),它们作为底层基础(substrate)构成了生物软件的实质。
而我们要做的就是通过学习模型,将生物程序转化为指定药物在体内所需执行功能的描述。这些生物程序可能类似于 Python 代码的片段,可以指定具体的药物行为,然后再将这些生物程序翻译成 RNA 分子的描述,并进行编译,我们最终的目标是希望这些 RNA 分子能够按照编写的方式执行功能,实现所期望的药物效果。
如果回过头看现阶段的 mRNA 疫苗,用编程视角来看的话,mRNA 的编程语言就像一个打印语句一样简单,只是指示打印出某种蛋白质。
然而,自扩增 RNA 和核糖开关这类技术能够带来很大变化,比如核糖开关可以让一类 RNA 分子的结构在特定小分子存在的条件下发生剧烈变化或自我降解。换句话说,我们可以把生物编码变得和计算机编程一样,有条件语句、递归,还可以引入逻辑和循环结构等,实现“图灵完备”的状态,我们还拥有各种工具,可以制造非常复杂的药物,这些药物可以通过 RNA 编程的方式进行制造、生产和分发,并且这种方式比过去的方法更具可扩展性。
自扩增 RNA 指一种具有自我复制能力的 RNA 分子,可以在细胞内进行持续的 RNA 复制,从而增加所产生的蛋白质数量。核糖开关(riboswitch)是一种存在于某些mRNA分子中的结构区域,可以控制 RNA 分子的结构和功能。这两项技术可以实现更加复杂和精确的控制,从而扩展疫苗的功能和应用。
在过去,因为无法大规模生产,基于蛋白质的生物制剂通常无法进入市场。如果我们想要给全世界的人提供所有蛋白质制剂,以满足他们实际所需的数量,地球上的空间是不足够的。
当前来看,如果研究 RNA 的制造和分销,预计 2 年后我们将有 60-80 亿剂量的 RNA 可在全球完成制造和销售,这个数字将迅速增加。在 Inceptive 的实验室中,我们可以打印出几乎任何给定的 RNA 序列,这是小分子无法做到的事情,蛋白质也无法轻松实现,尤其无法大规模地做到。
如果把它看作一个机器学习问题,那就需要生成训练数据,而这些数据原本并不存在。为了实现 Inceptive 的目标,就要求我们具备可扩展的合成和大规模制造能力,这种做法是前所未有的。
Sarah Guo:所以你的观点是,未来比如说我们想开发出对 Covid 刺突蛋白不同变种(10 -630 种)有效的药物或疫苗,Inceptive 可以搜索到具有不同稳定性特征、不同免疫反应特征的指令序列,而无需考虑冷链物流或特定细胞类型的限制?
Covid 刺突蛋白(Covid spike protein)是存在于冠状病毒表面的蛋白质,是 COVID-19 疫苗开发中的重要靶点之一,疫苗通常通过促使人体产生抗刺突蛋白抗体来提供免疫保护,从而防止病毒侵入细胞,从而预防或减轻 COVID-19 感染。
Jakob Uszkoreit :是的,而且这最终不会是一个搜索过程,而是一个生成过程,就像现在的 LLM 和图像生成模型一样,输出结果都是生成出来的。
这确实是我们的目标,因为筛选不可能将范围缩减到 10 至 630 种,Covid 刺突蛋白只是我们正在编码的众多抗原中的一个,当我们想要为多种抗原编码并不断做更新时,情况就完全不同了。
做个性化癌症疫苗研究时,随着时间的推移,每位患者都会有很多的抗原,基本上不可能完全依靠筛选方法来解决这个问题。
Sarah Guo:也就是说我们不必理解或发现每一个变种,或者进行昂贵的大规模筛选,就可以找到治疗方法了?
Jakob Uszkoreit :对,但或许执念于搞清楚原理正是阻碍我们进步的原因,这和语言理解很相似,计算语言学(Computational Linguistics)和普遍的语言学在很长一段时间内都想弄出一套足够准确、全面的语言理论,让我们能够解决现实中的语言问题,但其实正是过程一定程度上阻碍了发展。
Elad Gil :你之前提到的 Transformer Model 的工作原理让我想到了基因组测序。过去我们需要按顺序对染色体上的碱基逐个测序,但现在我们只需要将其分解成大量随机生成的微小序列,然后用机器将其重新组装起来,这二者在原理上的相似之处感觉很有意思。
Jakob Uszkoreit:确实如此,但我很惊讶的是它们类似的地方不止于此。有一个适用于很多地方的观点是,我们对事物创造的各种概念和定义对于教育非常有益,对各种推理也很有益,但又因为我们的认知能力有限,给定干预条件对做预测来说并不是正确的方法。
Elad Gil:我很同意你提到的另一点,那就是我们直到最近才真正了解大多数药物,尤其是传统药物的作用机制。例如阿司匹林,我们在 19 世纪从紫杉树皮中提取出来的时候,根本不知道它是如何起作用的,但它效果很好,人们服用这些药物时,副作用很小。
市场上有一些非常受欢迎的药物,例如 Metformin(二甲双胍,一种口服药物,常用于治疗 2 型糖尿病),能够作用于多个靶点,但我们仍然不确定它的确切作用机制。目前药物监管路径的很多重点都是,我们需要一个作用机制,我们需要一个验证途径,但这些都会造成障碍,而且不一定对药物疗效有帮助。也许偶尔能起到一点作用,但太过劳民伤财,甚至可能结论根本不正确,毕竟我们无从得知真实的机制是什么,它是否有效,带来的益处是否多于危害,这都有待实证研究确认。也许这才应该是我们关注的焦点,其他所有在还没得到确切的结果前,至少都应该先观望一下。
Sarah Guo:在这种历史背景下,我们并不了解医学中许多重要议题,有时直到事后才发现它们的机制。端到端的问题就像一个黑匣子,运用深度学习的方法感觉更合理。当然我承认这肯定有争议。
Jakob Uszkoreit:目前我们还不清楚黑匣子中是否存在我们可以应用的理论。
有人在尝试,我也觉得值得一试但我不是特别乐观也许有些简单的场景可行,但也有很多情况并非如此,比如我们并不能准确预测气候和天气预报,但我们可以完全理解薛定谔方程以及如何交互使用这个方程虽然理论上可以解决所有这些问题,但这是不切实际的,形成一个既具预测性又具实用性的理论也不是我们想做的。
Elad Gil:你说的这些既是过去传统药物发现的基础,也是我们思考如何做基因筛选的基础,很有意思。感觉你所做的工作基本就是功能筛选,首先诱变(mutagenize)一系列生物有机体并查看输出结果,然后可以识别出参与这一通路或输出的基因,也可以描绘出他们相互作用的方式。
在分子生物学兴起之前,我们只关注基因序列的测定和它们在生物体内产生的效应,但对生物分子的具体功能一无所知。所以,深度学习就像是对其他形式的生物学的回归,这类生物学已经取得了丰硕成果,但是我们正在用一种新的技术模式来审视这些系统。
Jakob Uszkoreit:是的。
Elad Gil:你如何看待人类增强技术以及这些技术的背景?你认为人类增强技术的发展前景是否乐观?短期内会以何种形式出现?
Jakob Uszkoreit:长远来看,我非常看好人类增强技术的发展,但我们可能无法直观地感知。从大脑的生理结构来看,它有高度的专注能力,而这种能力在涉及到输入/输出(I/O)时表现得尤为明显。
输入/输出(Input/Output, I/O)是指计算机系统与外部世界之间的数据交换。输入是指从外部世界传递到计算机系统的数据,而输出是指计算机系统向外部世界传递的数据。这些数据可以是文本、图像、声音、命令等等。此处 Jakob 将大脑比作一个计算机系统,阐述了他关于大脑计算能力的认识与思考。
我好奇的是,为什么大脑在进化过程中具备了超强的计算能力,即使我们的 I/O 提升几个数量级仍然能够应对?
也许大脑中的计算能力是为了执行长期规划等复杂任务而存在的,但如果我们将讨论的范畴限制在一个人的一生,我不清楚是否存在足够的进化动力能让我们大脑的计算能力远超我们 I/O 能力的某个倍数。
Sarah Guo:如果对比一下在 LLM 中用于训练的 token 数量和教小孩学说话的单词数量,会发现一个孩子在会说话之前只需要接触数十万或数百万的词汇。
Jakob Uszkoreit:这是因为我们混淆了微调和预训练的概念,预训练是所有进化的基础。通过预训练我们会得到一个初步的 LLM,它可能一开始做的是完全无关的任务,但实际上已经具备了一定的能力,只需用较少的数据进行微调,就可以使它具备非常先进的认知能力。
Sarah Guo:按照你的说法,人类为了具备高级语言能力做的计算已经在过去成千上万年的人类进化过程中完成了,漫长的进化使我们天生就具备一定的语言能力。因此,只需要数百万个词汇就可以让一个孩子熟练掌握语言。
Jakob Uszkoreit:或许你会说,既然人类先天具备学习和使用语言的神经基础,那么通过研究大脑进行语言处理的神经结构和连接机制,能够帮助我们理解语言的结构和逻辑。
但这其实是很困难的,因为人类语言能力与语言本身是相互影响、共同进化的,并且进化机制还不明确。所以我们很难分辨出哪些是先天连接,或找出已存的所有关联机制。
Elad Gil:有些人出生时缺乏一个脑半球或存在其他大规模的大脑缺陷,但大脑会通过重组来适应并弥补功能上的不足。这种重组可以导致大脑的某些部分接管原本不属于它们专门设计的功能,这一点非常有趣。有些大脑区域非常专门化,比如视觉皮层,而其他部分则是“通用目的机器”(General Purpose Machines),可以被重新分配以执行不同的功能。
Jakob Uszkoreit:我完全同意你的观点,但我觉得这个术语很 tricky,我们无法确定在遭受重大创伤后大脑能否重新连接并完成各种不同的任务。所以它可能仍然既通用(general)也专门(specific),二者兼备。这也是为什么我觉得 AGI 这个词也很有争议,因为我不确定“General”是什么意思。
延伸阅读
Character AI:如何把LLM变成人类想象力引擎?
Nile:前Cisco掌门人创立,用AIOps重构千亿企业网络
AI Agent的千亿美金问题:如何重构10亿知识工作职业,掀起软件生产革命?
Sambanova:前瞻的芯片能匠,软硬结合抢滩企业LLM Serving
Synthesia: AI Avatar的PMF样本,像PPT一样做视频
继续阅读
阅读原文