©作者 | 张众望,许志钦,GPT-4o(负责幽默部分)
单位 | 上海交大深度学习基础理论团队
Transformer 架构在当前大语言模型中的地位,堪比麦当劳里的牛肉饼——谁不爱呢?这位“全能选手”能解数学题、写诗作赋,简直是 AI 界的“跨界网红”。不过,要揭开它才华横溢的秘密,可比哄孩子吃饭还费劲。
直接研究真实的大语言模型,难度堪比在菜市场里向大妈们讲解狭义相对论——你会被讨价还价的嘈杂声淹没。所以,咱们换个思路,采用“锚点-关键项”这招“偷天换日”,既省时又高效。接下来,让我们一探 Transformer 学习复合函数的究竟:它是靠推理,还是单纯拼记忆?
假设我们有四种基本运算,它们可以组合出 16 种“变身形态”(16 种复合运算)。如果我们只拿其中 15 种训练模型,你猜:它能掌握剩下那个“遗珠”吗?
答案是肯定的!
我们给模型输入一个 Token 序列,其中有一对从 {1, 2, 3, 4} 中选出的“天选锚点”,每个代表一种加减法运算。还有一个从 20 到 100 中挑选的“关键项”,它在经过“天选锚点”的洗礼后,幻化成序列的目标值。我们令四个锚点分别代表 “+5”、“+1”、“-2”、“-8” 四种魔法。举个栗子,如果关键项是 80,锚点是(1, 2),那目标值就是(80+5)+1=86。
如果我们只用 15 个锚点组合训练,模型竟然能掌握第 16 个的套路。这就像隔着手机屏幕学会做大餐,是不是很酷?那模型到底是怎么做到的呢?为了方便讨论,我们就假设缺席训练的是(4, 3)这对“神仙眷侣”。
其实,模型的学习机制有两种可能。一是走“福尔摩斯”路线,通过演绎推理出每个单锚点的能力,再将 “4”、“3” 的技能组合,找到推理解,破解(4, 3)的奥秘。二是走“复制粘贴”路线,发现(a, b)和(b, a)这两类锚点组合的效果一样(因为加减法可交换嘛),于是把(3, 4)的规律“拿来主义”,安到(4, 3)头上,找到对称解。Transformer 究竟更爱哪一套呢?
破案的方法很简单,我们把(3, 4)的效果从 “-10” 改成“-6”,看(4, 3)是否也跟着变。如果(4, 3)的结果仍是 “-10”,说明模型是靠推理;如果变成了 “-6”,就说明模型其实在背公式。
实验发现,以默认初始化为分水岭,大的初始化推动模型多用背诵,学到对称解,小的初始化则有利于推理。这就像健身房的两类人,一类死记硬背每个动作,一类则掌握基本原理,灵活运用。
这其实与模型复杂度有关。对于推断机制,模型仅需要记住 4 种单 anchor 运算,而对于记忆机制,模型需要学习所有非对称关系的运算规律(如(1,1),(1,2)(1,3),(1,2),(2,2)等共 10 种)。因此学习推断机制所需要的模型复杂度更低。对于小初始化,模型初始复杂度低,模型参数会 发生凝聚现象。简单来说,就是同层的神经元会趋同。例如 矩阵的列,在小初始化时,有明显地相似度(低秩),但大初始化下并没有这种现象。
训练开始时,参数聚集在少数方向,随着训练深入,聚集的方向逐渐增多,模型复杂度水涨船高。当模型发现学 4 种映射就够拟合训练集,学习就停止了,所以它更爱简单的推理解。而在大初始化下,复杂度够高,模型很快记住其中的对称性。如果初始化再大一点,它干脆把每个输入序列到输出的映射都记住,反而学不到算术规律,连见过的锚点组合都不能保证完美复现。
通过这项研究,我们发现,Transformer 模型的初始化大小决定了它是像福尔摩斯一样通过推理解谜,还是像我奶奶一样通过记忆菜谱来做饭。小初始化让模型像侦探一样,只需要记住几个关键的线索(运算规则),就能推理出所有结果。而大初始化则像孙悟空,把所有知识吃下去的方式记下来。
展望未来,科学家们可能会像调配宇宙飞船的发动机一样,精确调节 Transformer 的初始化参数,以便它们在各种复杂任务中都能表现出色。想象一下,将来有一天,Transformer 不仅可以帮你证定理、写论文,还能帮你规划度假行程,甚至给你家的猫咪制定健身计划。
不过,要实现这些目标,我们还需要深入探讨不同初始化对模型复杂度和泛化能力的影响,就像农民研究如何让奶牛在听音乐时产奶更多一样。这不仅需要大量实验,还需要一点点运气和许多好奇心。
参考文献
[1] Zhongwang Zhang, Pengxiao Lin, Zhiwei Wang, Yaoyu Zhang, Zhi-Qin John Xu*, Initialization is Critical to Whether Transformers Fit Composite Functions by Inference or Memorizing, arxiv 2405.05409 (2024)
[2] Zhongwang Zhang#, Zhiwei Wang#, Junjie Yao, Zhangchen Zhou, Xiaolong Li, Weinan E, Zhi-Qin John Xu*, Anchor function: a type of benchmark functions for studying language models, arxiv 2401.08309 (2024)
更多阅读
#投 稿 通 道#
 让你的文字被更多人看到 
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected] 
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·
·
·
继续阅读
阅读原文