如何看待微软论文声称 ChatGPT 是 20B （200亿）参数量的模型？

今天朋友圈被一张截图和一篇微软的EMNLP的论文给激活了

论文：
CodeFusion: A Pre-trained Diffusion Model for Code Generation

地址：
https://arxiv.org/abs/2310.17680

录取：
EMNLP2024
->辅导界的小米带你冲刺ACL2024

让我们一起看看知乎的大佬们对此事的评价吧~

原知乎链接：

https://www.zhihu.com/question/628395521

段小草

过去的已知信息：

比较明确的是，GPT-3 是 175B；

gpt-3.5-turbo 的接口调用价格约为 davinci-003 的 1/10，且接口速度明显变快。

微软的这篇论文（CODEFUSION: A Pre-trained Diffusion Model for Code Generation）是介绍代码模型 CodeFusion 的，其中一张比较表格中，「捎带手」地给出了 ChatGPT 的模型参数规模：20B，咱也不知道是不是故意的。

其实早在gpt-3.5-turbo的价格出来的时候，就已经有人给出过这个推断了：

ChatGPT 是百亿（~10B）参数的模型（这其实是我们两个多月前就已获取到的消息，也可以通过测 latency 验证，和 curie 差不多）
虽然 ChatGPT 的 policy model 是百亿规模，但它所用的 reward model 也许用了千亿模型，这相当于最强的模型所学到的 human preference 被 distill 进了小尺寸。更可怕的是，这个小尺寸（~10B）模型已经达到或超越了先前的大尺寸模型（例如 175B 的 GPT-3.5）

我的几点想法：

20B 大概率是真的，但绝对不意味着随便一个 20B 都可以，要知道从小模型做到 20B，和从大模型蒸馏到 20B 的概念绝对不一样；
OpenAI 在多个场合多次表示他们坚信 scale law 依然成立，我不认为这是烟雾弹，并不能因为gpt-3.5-turbo小模型成功就认为更大的模型没用；
gpt-3.5-turbo让我们看到了边缘计算和端侧运行的希望，大模型的应用场景显然会变得更加丰富。只是不知道目前的蒸馏和缩小有没有理论极限，是否会出现小于某个量级后，基础能力明显下降的情况。

再过几天 OpenAI 就要办开发者大会了，希望能有更多信息，据外媒说 OpenAI 最近丢了不少商业客户，甚至和微软也貌合神离的，OpenAI 说要降低费用，让开发者能有更多机会，感觉他们还会憋点大招出来。

张俊林

不负责任猜测一波：GPT 4是去年8月做好的，ChatGPT估计是OpenAI应对Anthropic 要推出的Claude专门做的，那时候GPT 4应该价值观还没对齐，OpenAI不太敢放出来，所以临时做了ChatGPT来抢先发优势。OpenAI在2020年推出Scaling law的文章，Deepmind在2022年推出的改进版本chinchilla law。OpenAI做大模型肯定会遵循科学做法的，不会拍脑袋，那么就有两种可能：

可能性一：OpenAI已经看到Chinchilla的论文，模型是按照龙猫法则做的，我们假设ChatGPT的训练数据量不低于2.4T token数量（为啥这样后面分析），那么按照龙猫法则倒推，一般训练数据量除以20就应该是最优参数量。于是我们可以推出：这种情况ChatGPT模型的大小约在120B左右。

可能性二：OpenAI在做ChatGPT的时候还没看到Chinchilla的论文，于是仍然按照OpenAI自己推导的Scaling law来设计训练数据量和模型大小，推算起来训练数据量除以12.5左右对应模型最优参数，他们自己的Scaling law更倾向把模型推大。假设训练数据量是2.4T左右，那么这种情况ChatGPT的模型大小应该在190到200B左右。

大概率第一个版本ChatGPT推出的时候在200B左右，所以刚出来的时候大家还是觉得速度慢，价格也高。3月份OpenAI做过一次大升级，价格降低为原先的十分之一。如果仅仅靠量化是不太可能压缩这么猛的，目前的结论是大模型量化压缩到4到6bit模型效果是能保持住不怎么下降的。所以很可能OpenAI这次升级从自己的Scaling law升级到了Chinchilla的Scaling law，这样模型大小就压缩了120B左右，接近一半，在加上比如4bit量化，模型大小应该在30B左右，这样速度应该可以提升8倍左右，模型规模再加上其它技术优化是有可能把价格打到十分之一的。后续在6月份和8月份各自又价格下调了25%，最终把模型压缩到20B左右。

这里解释下为何ChatGPT 的训练数据量不太可能比2.4T低，这个2.4T是LLaMA第一版的训练数据量。目前研究结论是当模型规模固定住，只要持续增加训练数据量，模型效果就会直接增长，mistral 7B效果炸裂，归根结底是训练数据量达到了8个T，所以导致基础模型效果特别强。以ChatGPT的效果来说，它使用的数据量不太可能低于2.4T。

当然，还有另外一种可能，就是ChatGPT在后期优化（比如第一次大升级或者后续的升级中，开始版本不太可能走的这条路）的时候也不管scaling law了，走的是类似mistral的路线，就是模型大小固定在20B，疯狂增加训练数据，如果又构造出合适的instruct数据，效果也可能有保障。

不论怎么讲，对于6B到13B左右比较适合应用落地的模型，强烈呼吁中文开源模型模仿mistral，固定住一个最适合使用的模型大小，然后疯狂增加训练数据，再加上好的instruct策略，是有可能作出小规模效果体验足够好的模型的。我个人认为对于开源模型来说，7B-13B左右大小的模型应该是兵家必争之地。有心气做开源的可以再努把力，把训练数据往上再努力怼一怼。