「生成式AI迎来中国独角兽」
Key Points
大公司有丰厚资源,选择面也更宽,创业公司就要更聚焦;
生成式AI的成本下降只是时间问题;
生成式AI在哪些场景能用好,还没有行业共识;
把每个客户服务到最后一米需要大量人力;
真正做L0的初创公司一只手就能数得过来;
推C端产品的主要目的是向B端用户展示能力。
记者:陆彦君、吴洋洋
摄影:王晓东
编辑:吴洋洋
中国到底有多少家做基础大模型(foundation model)的初创公司?智谱CEO张鹏说「一只手就数得过来」。
在张鹏说出这个数字之前,最常被用来描述国内大模型(Large Language Models, LLMs)竞争状况的词是「百模大战」。自ChatGPT发布以来,「大模型」一词就开始进入通货膨胀。新概念更是不断,金融大模型、工业大模型、天气大模型甚至政务大模型……这种语言上的通胀困扰的不只是用户,还有上游开发大模型的公司和CEO们。
张鹏就是其中之一。作为智谱AI的CEO,令他困扰的问题除了美国的AI芯片禁令,就是如何让公司的模型在混乱的市场中被看到、找到客户。
智谱是国内目前获得外部投资最多(25亿元人民币)的初创人工智能公司,与搜狗创始人王小川创立的百川智能融资规模(3.5亿美元)相当。同时,它也是国内少数估值达到10亿美元的AI初创公司,另外两家是百川智能和Minimax。10月27日,这家公司也刚刚发布对标GPT-4的多模态模型ChatGLM3。
如果用L0层和L1层来区分,那么市面上大部分模型都是L1层的行业模型,只有少数才是L0层的基础模型,前者需要基于后者做行业性的继续训练。这是华为提出来的概念,张鹏认同这种区分,不过整个市场的意见仍然尚未统一起来,尤其终端用户。
没有人知道这种混沌状况会持续多久,与此同时有关生成式AI的高昂成本和用户增长瓶颈问题又冒出来了,而每家公司都需要在这种混沌状况中选择自己做什么不做什么、跟随或者不跟随,以及如何投入资源去跟上自己认为重要的目标。
以下是我们与智谱CEO张鹏的对话,他谈到了智谱如何通过对标OpenAI提升模型水平的过程、生成式AI的成本问题、要不要从L0往上做L1的抉择、B端市场的挑战以及做C端应用的逻辑。
张鹏,智谱CEO
从清华实验室到独立公司
新皮层:智谱AI在2019年就成立了,当时GPT-2已经发布,二者之间是否存在相关性? 
张鹏:我们的感知可能更早一点,一直在关注这个技术,当时GPT-2的效果还不是那么好,在很多评测指标上打不过同时代的Bert(注:Google于2018年推出的预训练模型)。所以我们也没有真的去训练GPT那样的模型,只是在研究预训练模型的算法和框架,比如说基于类似Bert的模型做一些预训练工作,并没有从头开始训练一个模型。当时的主要精力还是在研究算法上。
等到2020年5月,GPT-3发布,我们认识到大模型(
Large Language Models,LLMs
)的机会真的来了,因为它确实碾轧了其他各种类型的预训练模型,从那个时候开始,我们下决心来做这个事情(
注:指训练大模型
)。

新皮层:智谱的背景是清华,出于什么原因,你们认为有必要成立一个公司来做这个事儿?
张鹏:我们实验室(注:指清华大学知识工程研究室KEG)1996年就成立了。1998年我进清华计算机系念书,2005年硕士毕业就一直留在实验室工作。2017年,我们已经开始服务很多客户,于是就想做一些研究成果转化和产业化落地。我们想了各种办法,到2019年才把这条路走通。
新皮层:当时转化的东西也跟NLP(Natural language processing,自然语言处理)相关吗?
张鹏:我们2006年开始做的一个事情叫AMiner,它是一个科技情报的挖掘系统,系统本身倒不是很特别,最有价值的部分还是底层的AI算法,包括传统的机器学习算法、数据挖掘方法,还有知识图谱等等。我们把核心知识产权,包括专利核心算法作为成果转化了。
新皮层智谱推出的一系列大模型中都有一个词「GLM」(General Language Model,通用语言模型),它与GPT(Generative pre-trained transformers,生成式预训练transformer)只是名字上的不同,还是在技术路径上不同?
张鹏技术路径是不一样的。我们成立第一年聚焦在做算法,当时研究过Bert,也研究过GPT,虽然都是预训练模型,都以Transformer为基础,但它们算法细节不一样。我们想把好的预训练模型的框架算法优点结合起来,设计一个全新的预训练模型的框架算法。这个是GLM产生的原因,后来我们主要是把GPT和Bert的优点结合到一起。
新皮层:我们该怎么理解它是怎么预测的?
张鹏Bert是把中间的地方抠掉,从两边往中间预测。GPT是把后面遮掉,从前往后预测。我们算法上有意思的地方就在于,它把中间抠掉的部分挪到序列的最后面 ,这样你在预测的时候,实际上也是在做单向预测。
智谱GLM的预测模式。
这实际上是注意力计算的一个变形。绿色的线是双向注意力的计算,前面往后面看,后面也往前面看。红色的线就是单向注意力,从前面往后看,每一个都是这样的。
新皮层:这样计算有什么好处?
张鹏:这样的好处是把任务都变成单向的了。它同时结合了Bert的自回归填空和GPT的自回归生成,把两种方法结合在一起。所以这个模型训练出来之后,它既能够去填空,也能够去做生成。
新皮层:你们开发的第一个模型GLM-130B在2022年8月推出,当时是1300亿参数的模型,在2023年又有一个迭代(ChatGLM),两个模型之间最大的迭代之处是什么?
张鹏:就像GPT-3迭代到ChatGPT这样的关系,它是一个不同阶段的迭代,并不是在同一个模型之上。
新皮层:迭代的最大的差异是什么?是参数?还是算法
张鹏:不是参数规模,是训练采用的数据以及训练方法的迭代。
GPT-3迭代到ChatGPT,中间经历了许多过程:它先加入了代码的训练,形成Codex;进行SFT(Supervised FineTuning,有监督微调);再加入RLHF(Reinforcement Learning with Human Feedback,基于人类反馈的强化学习),有了InstructGPT,最后才形成ChatGPT。
我们从GLM-130B模型迭代到ChatGLM模型的过程,也加入了代码训练、进行SFT、做了RLHF,最后实现了ChatGLM,也是这样的一个路径。
新皮层:从GLM-130B到ChatGLM,两个模型表现上有大的差异吗?
张鹏:肯定会很大。早期的GLM-130B其实很蠢,会犯一些很弱智错误,右边是GPT-3生成的,左边是智谱早期的GLM-130B模型。
没有做人类反馈强化学习前,智谱的GLM-130B和OpenAI的GPT-3都表现愚蠢。
你向两个模型提问:向6岁的孩子解释月球登陆,它们生成的内容其实不是很好,比现在的ChatGPT或者ChatGLM回答的内容差太多了。所以无论是我们的GLM-130B,还是OpenAI的GPT-3,都不能识别人类的意图到底是什么。后来加上SFT(Supervised FineTuning,有监督的指令微调),再加上一些人类反馈强化学习(RLHF),才达到现在ChatGPT和ChatGLM的效果。
新皮层:现在大家都在比拼参数,参数可以说明模型能力吗?
张鹏:参数大小构成模型能力的天花板。参数越大,一般来说潜力越大,它能够学习更多的东西,不产生灾难性的遗忘,不产生太多幻觉,学习更多的东西也很稳定。但是千亿参数的模型如果不加监督指令微调,不加强化学习这些步骤,它其实也会胡说八道,也会有很多幻觉。
AGI比进入某个垂直领域更值得追求
新皮层:对智谱来说,你们开发模型的目标是什么?最终目标是AGI(artificial general intelligence,通用人工智能),还是说够用就好,更多目标是基于这个模型开发面向C端或者B端的应用?
张鹏我们的目标特别明确,就是要面向AGI,去做更强的模型。而且我们是最早在国内做这些事情的公司。我们并不想做一个模型够用就好,然后去开发应用,不是这样的。
新皮层:是不是其实现在大家都没得选,都得这么去做(开发AGI)?
张鹏:不一定,你看现在所谓「百模大战」里边,有多少是真正自己从基座模型开始干起的?很少。基于开源模型精调的不包括在内。
新皮层:要开发AGI,业内是否已经有相对共识性的路径?或者它仍然属于开放性的探索性问题?
张鹏:这个肯定还是一个开放性探索性问题,目前做得最好的当然是OpenAI,它的GPT-4和GPT-4V,智能水平已经超过了人类平均线。OpenAI还在继续做,还没有达到所谓的AGI,当然还有很多问题需要去解决。我们也是朝着这个目标,但是OpenAI确实比我们跑得快。对我们来讲,一个比较简单的路径,就是瞄准OpenAI能做到的事情,我们尽快赶上它,赶上以后再来看未来应该怎么办。
新皮层:OpenAI好像也没有明确说为了达到AGI要怎么做?
张鹏:一方面来说,做到AGI这件事本身就很难,很多事情都在探索。第二件事就是,OpenAI走到最前面,它很多事情从GPT-3以后就已经不再对外公布,也不发论文,不写详细的技术介绍。关键在于,我们对标OpenAI的GPT-4,我们只能对标它做的事。
比如说,GPT-4相比GPT-3.5加上了多模态,我们就分析这件事情,首先OpenAI为什么这么做?从效果上看,是不是加了多模态之后,整个模型的推理能力、逻辑能力、智能水平就会上一个档次?我们要来验证这件事,后来发现可能确实如此,那我们肯定也要往这个方向去发展。去研究具体怎么做,这一步就是我们自己得想办法的事情了。
效仿OpenAI从GPT-3到Codex和InstructGPT的过程,智谱做了同样动作。
新皮层:智谱AI现在也做了文生图、文生视频的模型,能验证您刚才说的逻辑吗?加了图片、视频训练,模型的推理能力就会有变化。
张鹏:对,基本上可以验证这事情。
新皮层:在这之后呢?
张鹏:我们先赶上GPT-4再说。
新皮层:为了实现AGI,是去做个机器人,把它放在实体空间里面训练,还是去做个游戏agent(智能体)……不是这个阶段需要思考的事情吗?
张鹏:我不是这个意思。我的意思是说,单纯从大模型本身的能力来看,我们还没有碰到天花板,它还有很多空间可以去探索。您刚才说的具身智能,把模型加到硬件里或者游戏里,做有大模型的agent,都是另外的探索方向和路径,我没有说它错。这些探索都会对我们去实现AGI有所帮助,而且都是很顶尖的研究者在做这些研究,我相信这些东西最终都会往AGI这个方向去归拢。目前来说,我们还是比较聚焦在大语言模型和跨模态能力上。
新皮层:探索AGI实现路径都涉及大量资源投入,对大公司和初创公司的挑战是否不同?
张鹏:当然,大公司有比较丰厚的资源,可以调动能力投入更多资源,选择面也更宽。创业公司可能就需要更聚焦。我们是国内第一家做大语言模型的创业公司,正因为我们比较聚焦,所以在大语言模型的效果上才会有一个比较领先的身位。
新皮层:Anthropic和OpenAI最近融资都提出了更大的资金需求,模型的智能水平跟资金之间存在正比关系吗?
张鹏:资金越多,能投入的资源越多,能尝试的方法越多,能动用的人越多,当然最后出来的效果越好。
新皮层:智谱在国内差不多是融资最多的公司,跟百川差不多。但是融资规模相较硅谷公司仍然差一个量级,在不利条件下,中国公司该怎么办?
张鹏:我觉得也不用太纠结这件事情。我们肯定还是要更聚焦,还是要节约成本,用更多更先进的技术去做到更好的效果。
生成式AI的成本下降只是时间问题
新皮层:从市场发展阶段看,现在进入到商业化阶段了吗?
张鹏:当然,我们很早就有自己的商业化方案,在GLM-130B训练出来之前,2021年我们就提出了MaaS(Model as a Service,模型即服务)的概念,我们把模型作为基座,提供各种不同类型的服务,包括API,包括私有化部署,还有介于两者之间的私有化方案。
新皮层:开源模型对大模型的商业化会有影响吗?对B端市场的市场规模会有怎样的影响?
张鹏:肯定会有影响。开源模型肯定会占掉一部分用户,但我觉得这不会是最主要的。大部分的商业用户还是会回归到闭源版本的商业服务价值。
模型的开源版本和商业版本是很好的互补形态。我们为什么在国内最早做开源这个事情,其实看重的就是开源生态社区更活跃,更有创意,更保持了整个技术的多样性,有更多人来参与这件事情,能够保证更新的技术和研究成果出现。
当然从商业角度来看,开源可能会让一些用户说我用开源版本就ok了,我不再使用商用版本,这是肯定的。但稍微大一些的商业用户,更多还是会要考虑服务的延续性、服务质量以及模型效果,毕竟模型的开源版本一般来说都还没有那么大,模型的能力和精度也比商业版本要差上一代或者一代半的水平。 
新皮层:你们会尝试C端吗?
张鹏:我们做过一些尝试,早期做了一些基于大模型的小应用,比如说像写作蛙、代码辅助工具,今年8月31号还上线了「智谱清言」,这也是一个C端产品。但相对来说,我们在C端其实看重用户积累以及用户反馈数据的闭环。在商业收费这一块,to C我们暂时还没有。
新皮层:要达到一定的市场规模吗?有一定的条件在里边?
张鹏:你可以看中国的to C市场,中国的C端用户付费意愿还在逐步培养的阶段,C端的商业逻辑,很多时候是流量变现。在我们看来,B端客户的商业化诉求会更直接、更大,这也是我们的基因,我们更多的还是偏向to B。
新皮层:智谱清言的定位和目标市场是什么?
张鹏:我们把智谱清言定位成「AI效率工具」,这就是我们最聚焦的事。我们会跟合作伙伴一起,比如和聆心智能一起做拟人的模型,更偏向文娱这一类。但本质上来说,我们更多还是比较偏底层地看这件事,还是看重模型本身的能力开发,至于说这个模型能力能在哪个行业里面去做应用,用到哪些场景里去,满足哪些需求,那是其次的事情。
新皮层:所以智谱清言是一个「尝试」的概念?不是特别有商业目标的一个产品?
张鹏
:还是有一定的目标,但是所谓商业目标不会是钱。用户体验肯定有目标。

新皮层:生成式AI的使用成本好像很高,哪怕ChatGPT或者是Copilot,订阅费都难以覆盖成本。
张鹏:对,大家都看到这一点了,因为它(指生成式AI)本质上还是用大量的GPU去做模型的推理。但你得从发展的角度看这个问题,只要它有足够的市场、用户和需求,必然会有人去做这样的技术优化、加速、压缩、降低成本,经过一段时间之后,成本自然而然降下来,盈利空间就会出现,自然也会有更多人来做C端应用,它是这样的一个逻辑。
新皮层:我们使用微信或者微博,好像并不需要多大的计算成本?
张鹏之前有人统计过,使用一次Google搜索好像是几美分注:摩根士丹利估计,Google在2022年总计3.3万亿次的搜索量,单次平均成本约为0.2美分)。
新皮层:生成式AI的成本有可能降到像Google搜索这样的成本吗?
张鹏:我判断不好,因为我不做硬件,生成式AI主要的成本还是来自于硬件。我判断不好这件事情,但是我相信它会持续下降。
新皮层:这个问题并不像外界担忧的那么厉害?
张鹏:我还相对比较乐观。
新皮层:B端好像现在也是成本很高?
张鹏:对,B端一样成本很高,但是B端核算成本的方式不太一样,它是有收益的。
新皮层:ChatGPT作为生成式AI的第一个超级应用,其全球用户量到达2亿的时候就不再上涨了,业界对这个问题担忧吗?
张鹏:也有人在唱衰这个事,用户量不增长或者甚至有一些下降了,是不是生成式AI慢慢地不能像预期那样成为一个超级应用。但这个东西是这样,先爆发增长,然后从顶峰再回归到正常的价值曲线上来,再慢慢往上爬,这很正常。
新皮层:您怎么理解背后的原因?是技术还没有那么成熟,还是说产品形态需要调整?
张鹏:我觉得它是比较综合的一个原因,首先第一个当然是技术的爆发,本身技术的突破让大家很惊讶,大家都很愿意以猎奇的心态去尝试这个事情。新鲜劲儿过去之后,大家了解到原理,就会觉得原来也就这样,开始反过头来找一些缺点,大家回归到一个比较理性的状态看待这件事。但是它(指ChatGPT)还是有这么多用户,不像一些互联网产品,很多互联网产品一旦热乎劲过去,用户就会消失。它用户没有消失,就说明其实这个产品还是有很大价值。
新皮层:它当然还是解决了一些问题,但是它的推理能力是不是并没有好到可以进入一些价值更高的场景?比如说金融决策、驾驶汽车,或者预定一些产品和服务。
张鹏:也许吧。我也不太说得好这个事,还是挺复杂的,可能刚才你提到的成本也是一方面,虽然它能帮助我解决问题,但是与我要投入的成本相比,好像不那么划算,所以大家可能也就先观望。
新皮层:是否我们不再能期待这项技术在接下来一两年时间内获得商业化方面的爆发,因为技术还没有那么成熟?
张鹏:技术成不成熟其实不是决定性因素。不是说一个技术非要成熟到完美,才能开始商业化应用,我觉得不矛盾。
红杉资本的文章说,生成式AI进入第二场,第一场大家还在搞模型,怎么设置一个好的模型,效果怎么比拼,能力如何提升,规模如何扩大。经过第一场之后,大家就搞清楚了,原来也没有那么神秘,可以通过各种方法持续提升模型能力,了解到了规模的成本和天花板,了解到哪些人能做这个事,哪些人做不了。
到了第二场,大家就说既然已经有这样的能力了,短期之内想要特别大的突破,可能就靠那么几家,其他更多的人怎么办?做不了这个模型怎么办?肯定就还得做事情。所以所谓的第二场,就是大家的模型虽然还没有做到perfect,或者说Super intelligence,超越人的智能,但是起码智能水平已经不错了,可以用了,看看我们怎么来用好这个东西,那就变成一个产品能力的问题,我觉得逻辑应该是这样。
新皮层:在哪些场景里边能用好,现在有共识吗?
张鹏:很难说有个共识,我个人的总结可能不完全正确:首先第一个,大语言模型能解决人机交互问题。最早的人机交互是用CLI(Command Line Interface:命令行接口),后来变成GUI(Graphical User Interface:图形用户界面),将来会变成叫LUI(Language User  Interface:自然语言用户界面),市场最大的一个需求就是让机器能够听懂人到底在想啥、要做啥。
第二个就是,AI在自然语言、甚至是跨模态的能力极大提升之后,整体智能水平提升了,以前有一些技术水平做不到的事,现在有了可能。比如原来直播带货只能是真人,但现在有了大模型,把它塞到数字人的数据源背后去,让它来控制这个数字人,这些都是智能水平提升带来的新应用。
中国大部分大模型都是L1层,不是L0层
新皮层:生成式AI在哪些场景中足够胜任了、能商业化了,据此是否能划分出场景的难度等级?
张鹏:这倒是一个很有意思的想法。我听到的更多划分等级的方法是直接按照模型本身所处的阶段来划分。比如华为,L0模型就是通用的基座模型,就像我们做的ChatGLM一样,然后L1是所谓的行业模型或者专用模型,它就分这么两层。
新皮层:这种划分并没有明确模型可以进入各行业到什么样的深度,比如进入医学领域、法律领域,它具体能解决多大的问题?
张鹏:这好像不取决于模型本身,可能还是取决于这个场景下的需求。
新皮层:不是反过来吗?硅谷不少独角兽公司都选中一个垂直领域,专注提升模型能力,以逐步解决该垂直领域的问题。
张鹏:这个不是我们选择的。
新皮层:为什么不呢?
张鹏我们想做的事情,就像公司Slogan一样,其实是一个AGI的目标:让机器像人一样思考。我们还是想要持续提升通用的智能水平。你说的这些具体应用场景,如何去满足这个场景的需求,我们可能会做一些,但是这并不是我们最主要的事情,我们更希望拿我们通用智能水平比较高的一个模型去赋能大家,让大家去做行业应用。
有好多概念是很容易混淆的,所谓行业模型、通用模型之间的差别和关系到底是什么?我更愿意接受像华为那种说法,就是L0层(指基础模型)和L1层(指行业模型)。但并不是说L1一是完全独立于L0的,行业模型(L1)理论上来说应该是基于通用模型(L0)增强出来的。这样才更好。
新皮层:你们现在其实就是L0的概念。
张鹏:对,但是只做L0,其他都不做,你就需要靠生态去帮你补完上面那一部分。L1到应用、再到用户,这中间的gap就会比较大。 
新皮层:中国真的做L0的公司有多少?
张鹏:真的做L0的,无非就是几个大厂在做。创业公司里面,我一只手都能数得过来。
新皮层:只做L0需要有一个很大的部署团队或者是销售团队?
张鹏:所以我们也在培养生态,要拉很多生态合作伙伴进来。我们提供L0以及提供L0向L1进化的方法,甚至提供上层应用开发的经验——这个模型怎么来调、怎么使用这个模型效果更好,这些东西我们可以提供给大家。但真正把每个客户服务到最后一米,需要大量人力。
新皮层:9月模型获批上市,对市场对你们的判断是不是有改变?
张鹏:你觉得有什么样的改变?
新皮层:我们测了所有模型后,主观上改变了之前对一些模型的心理排序。大家能不能体验到产品,会影响你们的融资吗?
张鹏:本质不在于融资,本质在于我们有了这样的技术和产品,如何形成市场影响力和品牌效益。就像你刚才讲的,获批了以后你才用到我们的App,才知道原来智谱这个东西还不赖,还可以,不像想象的那样是只有大厂才能做。
新皮层:硅谷那些AI独角兽都会在基础模型之上再推出一款C端应用,目的也在于向B端客户展示能力?
张鹏:对,所以我们推C端产品的目的主要就是这个。
新皮层:回到之前的问题,像ChatGPT这样的超级应用全球才有2亿用户,其他很多生成式AI应用都是昙花一现,你们能怎么做好?
张鹏:是,这个产品从来都不简单。
公司档案
创立时间2019年
创始人唐杰
CEO张鹏
核心产品:
·ChatGLM系列模型
·智谱清言:面向C端的聊天机器人
融资历程
战略投资:2019年8月,由清华控股和中科量创投资;
A轮:2021年9月,完成A轮融资,金额1亿元,由达晨财智、华控基金、将门创投、南京图灵、北京达凡等9家公司出资;
B轮:2022年9月,完成B轮融资,金额为1亿元,由君联资本、启明创投、华控基金出资;
B-2轮:2023年7月,完成B-2轮融资,由美团战投领投,金额达到上亿美元,投后估值为5亿美元。 
B-4轮:2023年9月,完成B-4轮融资,腾讯战投、阿里巴巴战投等多家机构参与投资。
估值:
10亿美元
-END-
若想了解更多当日资讯,请点击阅读往期智能晚报

若想了解头条新闻,请点击阅读往期

对话|戴雨森:GPT的隐喻
我们是一个诞生于GPT浪潮、由《第一财经》YiMagazine孵化的全新内容IP。 
和每一位关心技术、关注人类命运的读者一样,我们希望在这个充满不确定性的时代,更好地理解快速变化的科技世界,也更好地理解生而为「高级智能」的我们自己。
在这个目标下,我们计划从学术、商业、伦理、监管等多个角度报道和讨论与「智能」相关的议题。请注意,我们说的智能,不只是 AI。
与记者交流,可添加微信(请备注公司名称和姓名):
王杰夫 微信号: wjfsty
张司钰 微信号: helianthus351
吴洋洋 微信号: qitianjiuye
喜欢就关注我们吧,记得设为星标」
继续阅读
阅读原文