推荐人
童吉 五源投资人
“AI不是魔术,AI是魔法,魔法是花费再多时间和资源都难以实现的奇迹。”
“AI不仅是效率革命,更会带来体验革命。AI对游戏行业的影响短期被高估,长期被低估。”
“AIGC第一次让创作者们触碰到无限内容的可能性。”
这篇文章提出了很多有趣的观点,如果对技术有基本了解,可以从第二部分开始。在未来的AGI时代,也许AI的边界是我们想象力的边界。如果你也是想通过AI带来体验革命的创业者,欢迎找我们聊聊你的想法。
Wechat:jerryjtong
以下文章转载自公众号Alpha Mage,作者:Spike
过去几个月,AI激起全世界的巨浪。这一波共识形成的速度,是过去几年各类风口中最快的。其本质是,ChatGPT和SD/MJ的突破性体验,在人类历史上第一次达到了大众对「真正的AI」能力预期的阈值。
「任何足够先进的科技,都与魔法无异。」Arthur Clarke这句名言,是AI热潮的最好注解。
AI将成为所有行业的copilot(副驾驶)已是共识。不过,游戏行业仍将会是特殊的。在人人大谈如何用AI来降本增效的当下,我更喜欢TYPE-MOON世界观下对魔法和魔术的区分定义:
魔法和魔术是不同的。魔术纯粹只是将常识中可能的事,通过非常识的方式加速实现,用魔术求雨和人工造雨只是方法不同罢了。
而魔法是按常理无论投入多少时间和资源、不用魔法就不可能实现的奇迹——人力完全无法达成之事,方为奇迹。
在这样的前提下,青子开始讲述了:“所谓魔术,草十郎,简单说来就是共同的原则。可以说它们是全世界通用的教科书。只有拥有了教科书,任何人都可以依照血缘情况而成为魔术师。但是魔法与魔术不同。魔法并不像魔术一样是从「根源之涡」中派生出来的,而是其直接相关的东西。说到根源之涡…就是类似于太阳一样的东西。”
“魔术只是利用了来自太阳的恩惠而已。对自然现象进行模仿或补偿就是魔术的本质。我们只是学习神秘、实践并将之再现,但是却不能创造神秘本身。而魔法则是利用太阳本身。你可以利用它达到没人到过的地方,还可以引发无人能够模仿的奇迹。无论花费再多的金钱与时间,人类都无法获得的技术——那就是魔法。”
AI isn't just about faster game production. 或许AI对其他行业只是效率革命,但对游戏行业,AI一定还会带来体验革命。如同反复被证明的Amara's law:人们往往在短期高估技术的影响,而在长期低估。与多位头部项目里正尝试将AIGC落地的朋友对谈后,我们都确认:短期内AI对游戏行业的影响被高估了,而AI对游戏的长期影响又被大大低估了。AI在游戏行业的未来,绝不止是降本增效提高生产力的「魔术」,而是真正通往根源、创造出前所未有梦幻体验的「魔法」。
一、混元熵增论:
生成式AI的四个关键问题
AI对于游戏行业并不是新概念,早在这波AIGC热潮出现前,AI的发展就已经深刻影响着游戏行业:
NPC智能一直是关卡设计中的核心问题,敌兵AI实现方式经历了从简单条件判断到状态机、再到有复杂层次结构的行为树的重要迭代,近十年来TGA最佳游戏均使用行为树框架。
推荐和广告系统都是由机器学习驱动的,算法在数据加持下极大提升了广告和用户匹配的精准度,深刻改变了游戏行业的获客方式,从渠道主导转移到投放主导。
没有AI-bot技术就没有数量众多的吃鸡类手游。主流大DAU单局游戏都广泛使用基于强化学习的AI-bot来提升玩家体验,解决「大家都想赢,那谁来输?」的关键问题,数据也验证了人机对局对于缓和失败挫折感非常有效。
在人人假装自己很懂AI的当下,了解底层理论的演进、定义AI能力的scope非常重要。到底哪些是全新的技术范式,哪些是「新瓶装旧酒」披上新概念外壳来炒作一番?AI文生图和大语言模型又有什么关联?AI的未来会由OpenAI垄断吗?国内大厂们的追赶进度如何?
下面四个关键问题,是对生成式AI的未来极其重要,但极少被讨论、甚至被刻意混淆的。真正理解这四个问题,就能比市场上95%的人更了解AI的本质和边界。
1)What's different?当下的AI和以前到底有什么区别?
1.1 范式转移:从归纳到演绎
AI模型从机器学习原理上可以分为两类:决策式AI与生成式AI。决策式模型 (Discriminant Model) 学习数据中的条件概率分布,生成式模型 (Generative Model) 学习数据中的联合概率分布,两者擅长解决的问题不同:
决策式 AI 擅长归纳,基于现有数据发掘规律,并利用历史规律对新数据进行预测。有两大类应用场景,一类是辅助决策,比如推荐算法和交易风控;另一类是决策智能体,常用于自动驾驶和游戏AI。
生成式 AI 擅长归纳后创作,基于现有数据进行模仿式创新。基于GAN的Deepfake,基于Diffusion的SD/MJ,都是生成式AI的落地应用。
ChatGPT惊艳全世界,本质是因为:大语言模型(LLM)加持下的生成式AI,表现出了过往AI所不具备的理解、推理、演绎能力。这是底层范式「质」的不同,而非性能的延续性优化。
过往机器学习范式的本质是「拟合」(data fitting),找数据中的「相关性」,通过设计优化目标来优化特定方程,以寻找X和Y的相关关系。相关关系学习得好,在见到一个未知的X的时候,也能根据规律,总结出Y是什么。
任务的边界和规则清晰时,基于过往数据的拟合非常有效,比如短视频平台的推荐算法,就是把一个「业务问题」转化为决策式AI「优化问题」的最佳案例。
三体里人类基础科学理论被质子锁死,但把应用推进到极致也能造出太空舰队,这正是机器学习领域近年来历程的写照。无论决策式AI在特定任务上表现得多么不可思议,底层原理都是数据间相关性的拟合分析。看似突破性的AlphaGo类游戏AI,能击败世界最强的人类,其本质也是把游戏规则转化为问题的局部抽象 + 优化方程 + 自对局训练,并非基础原理的突破。
当年AlphaGo刚出现时,很多媒体大肆渲染人类最强大脑在AI前如何不堪一击,煽风点火让人类「警惕人工智能」,但ML圈内对此付之一笑。业内深知,针对特定任务优化、基于统计和归纳的机器学习模型,绝不可能是通往AGI(通用人工智能)的路径。
过去几年,在产品形态上与ChatGPT最接近的是任务对话类AI助手。Amazon的Alexa,Google的Assistant,国内各家大厂跟进的智能音箱,其原理都是万变不离其宗的「填表」(Slot filling):通过NLU(自然语言理解)识别用户意图,设定好如何把用户意图填进预先设计好的表格里,再调用相应接口完成任务。这类AI仍然依赖于对具体任务的人为设计,是产品经理设计好后,程序员再完成这张表的编程。而一旦对话超出设计好的「表格」范畴,人工智能就一秒变成了「人工智障」。
传统对话式AI助手与背后「填表」的本质
显然,过往我们所见到的一切AI,最关键的问题就是:缺少常识(Common sense),无法泛化,无法做到「理解」。这三点是所有ML领域顶尖学者梦寐以求都想突破的瓶颈。
1.2 关键能力:规模效应与涌现
量变带来质变,大模型的「规模效应」导致了「涌现能力」的出现,而「涌现」出的新能力,正是生成式AI性能突破的关键。
中文互联网里关于LLM「涌现能力」的综述和解读已经有很多,我更推荐直接读Google和Stanford的论文“Emergent Abilities of Large Language Models”,讲的非常清楚。这里用说人话的方式做一个简单综述,看看过往AI「缺少常识、无法泛化、无法做到理解」的问题是如何被大模型解决的。
「规模效应」是线性提升。2020年OpenAI在论文“Scaling Laws for Neural Language Models”中证明:独立增加训练数据量、模型参数规模或者延长模型训练时间,都会对模型效果有提升,尤其是对下图左侧的知识密集型任务。LLM相比以前AI显著提升的常识能力,正是来自于训练数据和参数规模增加,GPT-3的3000亿单词训练语料库和1750亿参数中存储了巨量知识。
「涌现能力」是非线性的,是小模型中不存在而大模型独有的能力,在模型规模达到临界点后突然出现。这里重点介绍其中最关键的两项能力:
①上下文学习(in-context learning)
过往机器学习中的fine-tuning方式,是拿大量训练数据喂给模型,利用反向传播去修正模型参数重新训练,有明确的学习过程。而in-context learning只是给定LLM几个示例作为范本,不修改参数、不重新训练,仿佛LLM只是「看了一眼」范例,就能在新问题的预测上表现得很好。
这从本质上改变了将模型应用于新任务的方式,让任务来适应模型,而不是模型适应任务,是AI能力真正得以「泛化」的基础。
②利用思维链 (chain-of-thought) 进行复杂推理
谷歌“Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models”这篇论文指出,LLM体现出「涌现能力」任务的共性是都由多步骤构成,要解决这些任务,往往需要先解决多个中间步骤。多步骤的数学问题,一直是过往AI的苦手,而LLM通过使用「思维链」推理策略,利用包含中间推理步骤的提示机制来一步步解决任务,得出最终答案。
我们很难真正定义「理解」。但GPT充分的知识储备,泛化和推理举一反三的能力,使它确实更类似一个顿悟后具备理解能力的人:能掌握抽象概念,能形成内在逻辑,更懂我们在说什么,在历史中首先达到了大众对AI能力期望的阈值。
1.3 大模型能力目前不具备可解释性
即使是创造出GPT的OpenAI、最顶级的学术大佬,目前也尚未对LLM近乎魔法的「涌现能力」达成共识。
微软自己在关于GPT-4的论文中提出了这个问题:它是如何推理、规划和创造内容的?为什么GPT-4本质上只是由简单的算法组件——梯度下降和大规模的Transformer架构,以及大量数据组合而成,但会表现出如此通用和灵活的智能?
斯坦福近期的一篇论文提出「涌现能力」可能是一种幻觉,是由于度量方法和指标设定的缺陷导致的。如果更换一些连续、平滑的指标,涌现现象就不那么明显,更接近于Scaling Law之下的线性提升。
图灵奖得主Yann LeCun坚持认为以GPT为代表的自回归大模型即将走到极限,他的「世界模型」才是通往AGI的道路。而OpenAI联创和首席科学家Ilya Sutskever在公开访谈中表达的观点则跟LeCun争锋相对。
LeCun对自回归大模型的批判
在最前沿都尚未对生成式AI原理和路线达成共识的阶段,我们注定要与不确定性为伍。但了解基础原理的演进后,我们起码可以清楚地分辨新物种与旧范式:

AlphaGo、DOTA和王者荣耀局内的AI-bot、游戏智能运营、推荐算法等等,仍然属于决策式AI,是确定边界和规则下的极致理解者。在具体商业场景中当然有价值,但本质原理上,和当下引发浪潮的生成式AI截然不同。
2)LLM和AI图像生成有什么异同?
2022年下半年AI图像生成应用(SD/MJ)出圈,年底ChatGPT爆火,两者相继引领了潮流。有趣的是,人们谈论生成式AI时,经常倾向于将这两者混为一谈。
实际上,图像生成模型和大语言模型,在底层架构、进入门槛和潜在应用规模上都有极大差异。明确区分图像生成和LLM,对于判断未来至关重要。我们用这张图来总结两者的核心差异。
2.1 图像生成和LLM基于完全不同的基础模型
众所周知,LLM的底层模型是谷歌2017年提出的Transformer。而图像生成领域的底层则是扩散模型和多模态CLIP模型。简单介绍下这两个模型的发展历程:
扩散模型 (Diffusion Model),2015年被提出,借鉴了热力学中扩散过程的条件概率传递方式,通过主动增加图片中的噪音破坏训练数据,然后反复训练,找出如何逆转噪音过程、恢复原始图像。训练完成后。Diffusion就可以应用去噪方法,从随机输入中合成新颖的「干净」数据。
在Diffusion的工作出现前,CV领域更流行的架构是GAN(生成对抗网络)。Diffusion相比GAN在生成效果和图片分辨率上都有显著提升,但计算成本也显著更高,对于高校学术实验室的显卡配置而言训练时间过长,所以在提出之初并未成为主流。但随着近年来算力的突破,Diffusion已逐渐成为更主流的图像生成架构——有趣的是,算力的主要提供者NVIDIA,似乎正是这种改变的推动者。
CLIP模型 (Contrastive Language-Image Pre-training),2021年OpenAI发表“Learning Transferable Visual Models From Natural Language Supervision”,提出CLIP架构并开源,社区又进一步做了OpenCLIP这类改进工作。CLIP模型广泛利用互联网上带有文本描述的图片作为训练样本,搜集了超过40亿组「文本-图像」训练数据,能够将文字和图像进行关联,让文字与图片两个模态找到能够对话的交界点,是通过文字生成图片/视频/3D内容等的基石。
简单来说,Diffusion解决的是「图像内容生成」问题,赋予AI生成高质量图像的能力,但没有解决输入端的问题,只能完成「图生图」或「AI换脸/修图」类的任务。而CLIP则进一步提升了人类语言和图片的关联能力,使得「文生图」体验产生质变。
2.2 LLM是比AI图像生成远远更大的机会
游戏行业当前对AI的热情,主要聚焦在SD/MJ等图像生成应用上。但OpenAI的决断非常耐人寻味——在同时完成了LLM和图像生成两个领域最重要的工作后,他们选择all in大语言模型,闭源GPT以增加竞争壁垒,对图像生成领域则爽快的开放了CLIP模型供社区借鉴。自家文生图应用DALL-E,也更像是个「仅供体验」的demo,仿佛对Midjourney取得的商业成功毫不在意。
这背后的原因是:跟「语言」的巨大意义相比,「图像」实在是相形见绌。语言是人类最重要的发明,是人类与其他物种的最大区别之处。抽象推理、发展复杂概念、将思想相互传递、形成信任和协作...这一切都依赖于「语言」。可以说没有语言,现代文明就不可能实现。所以OpenAI判断,LLM是比图像生成重要几个数量级的机会。
语言模型的应用领域比图像模型宽广得多
VC们对分属两个领域的公司给出截然不同的估值。赛道规模的区别,使得两个领域的商业竞争格局迥异:
a. 图像生成模型的训练和部署成本远低于LLM。LLM的庞大参数规模带来了极高的训练成本,而用于图像生成的Imagen和DALL-E,参数量级只有早期GPT-3的1/20、GPT-4的1/100,Stable Diffusion只花费了几百万美元的GPU时间进行训练。这也是为何OpenAI需要卖身巨头跟微软深度绑定,而图像识别领域的领跑者Midjourney只有十来人的团队、没拿过外部融资,依然实现了领先的text2image体验。

不同领域模型的参数量对比
b. 图像生成模型更容易达到普通用户的标准阈值。审美是非常个人化的,人对于图像的要求天然比对文字更主观。文字中的事实性错误和语病很容易被发现,但图像作为一种「答案」可被接受的范围远远更为宽泛。交换两个像素不会对图像整体产生太大影响,但交换两个词可能直接会让句子语义不同。另一方面,人人都掌握一门语言,但「画画」这件事属于专业技能,AI绘画作品更容易让没接受过专业训练的普通用户一眼惊艳。
c. LLM必须具备通用性,而图像生成更需要风格化。「语言」的通用性要求很高,至少得拥有基础常识,才能理解用户在输入什么。而AI绘画真正刚需的使用者——专业设计师们,工作所需产出其实是局限在1-2种特定风格的,他们更需要专门训练的、高度风格化的模型。比如平面设计师们常用MJ,而二次元画师们更青睐基于MJ模型做风格化训练的nijijourney。
LLM和图像生成两个领域的终局将截然不同。LLM领域有更高的进入门槛,资金、算力和数据规模的硬要求,足以把绝大多数初创公司和中小团队拒之门外。而图像生成模型并不需要天量参数,进入门槛低、性能标准模糊、用户需求分散,必然是个低集中度的市场。Stable Diffusion这样的开源社区领导者,Midjourney这样通用化的闭源模型,以及各种风格化训练的专有模型(想象一下细分到美漫风/宫崎骏风/米哈游风)都将在未来有一席之地。
2.3 未来变量:当LLM进入多模态领域
一个令人兴奋的问题是:如果把图像生成模型的参数扩大到LLM的量级,会发生什么?
从SD/MJ近几个月的产品迭代看,当下AI图片生成应用更侧重于「生成内容的质量」的提升。这带来了显著的体验痛点:对输入prompts的理解能力弱,输出的可控性差。
今天我们使用SD/MJ仍然高度依赖所谓「咒语」,甚至出现了《元素法典》和prompts market这类有趣的周边生态,被戏称为「抽卡式创作」。这相比于ChatGPT自然顺畅的输入是有显著差异的,反而更像传统机器学习里的「炼丹」。
在输出端,目前也还无法用自然语言锚定特定的色彩、构图和人物姿势,不支持进一步的局部精修和替换。当下解决文本理解能力不足的替代方案,是通过非文本模态的adapter来增强对生成图像的控制,比如 ControlNet 和 腾讯T2I-Adapter,但这类解决方案又把使用门槛拉的很高。
简而言之,我们与LLM交互的方式很接近跟人聊天,不用精心设计prompt,而AI绘画则更类似于开盲盒。这背后的本质是,小模型的知识储备和语言理解能力,仍然非常有限。
OpenAI坚定押注LLM的关键判断正是:语言即万物。历史上每次真正革新范式的产品,在易用性维度都是拉满的。使用门槛为0、理解能力更强的LLM,才是控制图像生成的最终解决方案。
GPT-4已经在往多模态领域拓展。LLM领域技术外溢,惠及其他领域有很多先例。比如LoRA最开始是为解决大语言模型微调成本问题而提出的训练方法,当前在Stable Diffusion中也被广泛使用。当LLM进入多模态领域后,或许短期内在「生成内容质量」维度并不会有质的提升。但多位ML前沿学者跟我讨论得出的共识是:LLM必然会将模型对文本的理解迁移至对图像的理解,AI图像生成对文本输入的理解能力将得到突破性提高。
能用自然语言轻松描述需求、更理解人在说什么的AI绘画体验,或许并不遥远。
3)开源 vs 闭源?
3.1 规模是枷锁
封闭世界和开放世界之间的竞争,是从PC时代延续至今的主旋律。Windows和Linux、IE和Mozilla、iOS和Android...技术在历史上从没有被一两家公司垄断过,落后者们会选择用开源的方式结成联盟,以抗衡领先者的优势。开源和闭源的战争,构成了当今我们所见信息世界的基础框架。
机器学习领域有历史悠久的开放科研传统。不同于传统软件开发,ML学术界对工业界有巨大影响力,所以开源通常是默认选项。即使是OpenAI的伟大工作,也是在持续开放科研的氛围中,站在前面巨人肩膀上做出的。比如OpenAI在InstructGPT论文中提到,GPT核心思路由之前两条研究线路所带来:一是LLM,二是RLHF(人类反馈的强化学习)。其中:
LLM基于Transformer架构,而Transformer本身又是为了解决早期序列模型(如LSTM和RNN)的问题提出来的。
RLHF最经典的书是Sutton & Barto的著作《Reinforcement Learning》。2004年,Pieter和吴恩达就利用RL提出了名为Apprenticeship Learning的方法,来让机器学会复杂的动作。2017年开始,DeepMind的一系列工作(游戏/围棋AI等)让强化学习有了更大的影响力,ChatGPT的训练也深得前面这些工作的影响。

有习惯国内巨头们黑暗森林式竞争的朋友,跟我聊天时往往会表示「OpenAI选择闭源是非常正常的竞争策略」。但问题就在于,做大模型本质是前沿科学探索,需要极高的人才密度。ML领域顶尖人才大多与学术界有深厚渊源、极富技术理想,完全不是MBA搞商业的那套mindset。
——比如前 Google 首席软件工程师,Transformer 作者Noam Shazeer,和LaMDA开发领袖Daniel de Freitas,就因为Google迟迟不愿意开源LaMDA,违背了他们的技术愿景,愤然离开Google,共同创立Character.AI。我聊过的几位ML前沿研究者,也都觉得圈子里对OpenAI闭源的谴责非常正当:你的模型架构是别人提出的,训练数据集是整个互联网用户产出的,享受了机器学习领域开放科研的成果,自己的模型却连训练方法都语焉不详,实在不太厚道。
促成这种从开源到闭源转变的关键,是LLM极高的训练成本。Scale既是神奇能力的根源,也是枷锁。过往的AI前沿成果更多出现在学术界,但我们很难想象高校能一次性给出数千万美元的研究经费,真实情况是实验室能有几十块A100就算是顶配了。
OpenAI发展历程中最关键的决策,正是和微软深度绑定——几位创始人知道大模型这件事,作为非营利组织是搞不定的,算力、数据和钱都远远不够。所以他们接受了微软 10 亿美金投资,微软也确实鼎力支持,几次大义灭亲,把计算资源从内部AI团队手里收走,倾斜给 OpenAI。
来自学术界的大模型研究成果占比正快速降低
伯乐与千里马的故事背后,巨头真金白银的投入必然是要有商业回报的:源是惠及整个行业,只有闭源才能增加公司自身的商业竞争力。越来越多科技巨头的LLM研究部门表示,将停止公开发表研究成果,从而减少竞争对手、开源社区和学术界对该领域前沿进展的了解。
在巨头们的阴影之下,学术界正对大模型这场游戏越来越力不从心。
3.2 开源永生
但是,我并不对开放世界的未来悲观。
如果不考虑商业利益,开源模型长期一定是优于闭源的——开源精神是很多技术极客的信仰,社区力量的支持至关重要。AI图像生成领域的演进历程,给我们提供了一个绝佳的观察视角:
最开始出现的是 Imagen、DALL-E 等闭源模型,效果再好大家也只能围观羡慕。Stable Diffusion 的开源完全扭转了这个状态,热度碾压DALL-E一路走高,在其生态上涌现出大量算法层面的迭代和创新——开发者社区和学术界的力量几乎全部集中在了Stable Diffusion上。ControlNET、T2I-Adapter和LoRA这些目前的SOTA方案,都成为了Stable Diffusion的模块插件。
SD快速占据了主导地位,
使得OpenAI的闭源解决方案无关紧要
一位OpenAI员工在博客中感叹「科技巨头雇佣的talent终究只是全人类talent中的一小部分,开源意味着伯克利的教授和斯坦福的学生们都在推进这个生态系统」。开源社区的力量落到产品体验上,就是功能扩展性上代际的差异。如果只论易用性和生成图片质量,MJ肯定是最优秀的。但有好几位画师朋友都表示,MJ再酷炫也只是玩具,有强大插件生态的SD才是真正有望提升效率的生产力工具。
现在MJ的付费用户社区里,也出现了大量对扩展功能落后的不满,比如下图的言论就颇具代表性:
我在自己电脑上使用了Stable Diffusion2天,它所提供的可控性是MJ遥不可及的,这让MJ提供的服务显得有些可笑...我们为什么不能拥有ControlNet、in/outpainting、Dynamic Prompts等等先进的插件和功能呢?
毫无疑问,由于算力、资金和人才的极高门槛,科技巨头旗下的闭源LLM在短期会保持对开源的领先。但把时间拉长看,开源仍将会是AI世界极其重要的力量。
第一,开源是落后者最好的商业竞争策略。
在技术理想之外,开源在商业竞争中是经典的反向定位(counter positioning)战略。
在过往的技术周期中,最成功的开源项目背后往往都由大公司操盘,以对抗更领先的对手。一种方式是赞助已有开源项目,比如Linux在90年代得到IBM大力资助,以抗衡微软。另一种则是亲自下场主导开源项目,比如Google用Android的开放生态与苹果竞争。
LLM的战争也不会例外。前几名的公司(比如微软、谷歌和Anthropic)当然会闭源以增加自身竞争力,而阶段性落后的公司(比如Meta或某家国内巨头?)则有很高概率选择开源,引入学术界和社区力量建立生态来竞争,争取成为开源LLM生态的主导者。
一旦有「性能仅略微落后于头部闭源模型」的开源模型出现,和Stable Diffusion轨迹类似的弯道超车将再一次发生——社区的兴趣会全面转向基于开源模型的二次开发和fine-tuning。
从历史上看,开源往往比闭源有更高的集中度,有更难撼动的生态壁垒。围绕开源模型的参与节点间会出现类似互联网产品的网络效应,这种效应如今在Hugging Face中已初见雏形。
第二,私有化部署才能保证数据安全。
4月25日,OpenAI在官方blog发布了一篇新文章“New ways to manage your data in ChatGPT”,提到的两点都是关于隐私和数据安全的:
1)在设置中允许用户关闭聊天记录,同时禁止将对话用于训练和改进模型,以保障个人隐私。
2)将在未来几个月内推出面向企业的产品ChatGPT Business,以使企业能够在确保自己数据安全的情况下使用GPT服务。
「AI安全」已是欧美当下最火热的议题。毕竟OpenAI在官方FAQ里写得很直白:你的个人数据就是我用来训练模型的燃料。
we use data to make our models more helpful for people. ChatGPT, for instance, improves by further training on the conversations people have with it.
AI安全压力一方面来自政府监管,比如意大利曾禁止ChatGPT,并指控其非法处理用户数据,法国、西班牙和德国也已经开启对OpenAI的调查。另一方面则来自于更直接的商业竞争,微软云业务上最大的对家亚马逊,已经通过法务部门发出全员邮件,禁止在工作中使用ChatGPT,尤其是输入涉及亚马逊内部数据的信息。苹果也紧随其后,禁止员工使用外部AI工具。
不同阵营、不同利益实体之间的互相信任是几无可能的,更不用说算法本就是缺乏可解释性的黑盒。TikTok在美的窘境就是最佳案例:你说数据储存在美国本地很安全、说字节总部无法访问境外用户数据,对方就会信吗?更多时候,「信不信」其实是个屁股决定脑袋的问题。
传统App只能收集应用内有限维度的用户行为数据,但生成式AI涉及更多信息输入,更加敏感。无论是使用SaaS化的闭源AI产品还是调用API,无论用户协议中怎么保证,通过接口传输的数据从技术原理上就是没有任何安全保障的。猜疑链永远存在。
TikTok的数据安全危机,未来也必然在闭源AI模型上重演一次——这既会发生在不同国家和区域之间,也会发生在巨头竞对之间。中国的互联网大厂和政府国企们不可能放心调用美国的大模型API,腾讯阿里字节也不会允许员工使用对方的AI产品。
私有化部署的开源模型,或许是AI时代兼顾效率和数据安全的最优方案。
开源AI的力量正在繁荣生长。随着3月份Meta LLaMA参数的泄露,开源社区中涌现了巨大的创新浪潮。LoRA(low rank adaptation, 低秩适应,将模型权重更新表示为低秩分解的形式来实现模型微调)方法的出现,显著降低了finetune的计算成本和训练时间,又再一次降低了大规模社区参与的门槛。
一位谷歌研究人员在被泄露的文件中略带沮丧地写道,「我们没有护城河...我们应该与谷歌外部的力量学习合作。当免费、无限制的替代品质量相当时,人们不会为受限制的AI模型付费。我们应该思考真正的附加价值在哪里。」
整个世界都在期待大语言模型的「Stable Diffusion moment」。或许LLM的终局,我们会见到3-5家闭源模型公司与一家「吃鸡成功」的开源模型社区之间旷日持久的战争。
4)国内能快速追赶大模型吗?
4.1 OpenAI是产品和工程的胜利
讨论LLM有一个绕不过去的问题:为什么OpenAI能成为赢家?
这个困惑反而更多是高校/大厂里常年在ML一线的朋友对我提出的。外人看热闹,但几年间一路追着Google和OpenAI论文看下来的内行眼里,技术演进是有脉络可循的:从深度学习框架到预训练语言模型(PLM)再到大模型,Google提出了Transformer和T5,直到22年InstructGPT发布前,Google都是赛道的领跑者,怎么OpenAI就突然冲线了?
众所周知,LLM三要素是模型架构、算力和数据:
模型架构是公开的,大家现在走的都是「自回归语言模型+Prompting」这条GPT验证过的路。
算力更多?之前的摸索期可能是,但形成共识以后算力不可能是瓶颈,美国的科技巨头们又没被「卡脖子」。
数据更优?OpenAI并不是拥有大量专有数据的互联网公司,大部分训练语料是抓取的公开数据,数据质量主要靠人工标注提升,无论哪家大厂都不会缺外包打标的预算。
但为什么ChatGPT相比一众竞品,就是有明确可感知的更优秀体验?
目前能形成共识的一点,「顶尖人才密度」是OpenAI的核心优势——前沿探索和完成确定性任务,需要的人是完全不同的。软件开发这类确定性工作,是架构师进行整体设计,PM再把任务层层打包分配给下面员工。但前沿探索是高度不确定的,这就要求团队里不能有螺丝钉,每个人都得是六边形战士,是科学家和工程师特质的结合。这里最重要的是「人才密度」而非「人才绝对数量」,Google的人才绝对数量是远高于OpenAI的,但这些人被分散在不同团队里,无法集中力量朝一个方向努力。
另一个OpenAI显著区别于所有竞争对手的点,则很少被提及:产品驱动研究。
学术界的不缺顶尖人才,但研究往往是以发论文为导向的。这种评价体系到大厂的研究部门也没有本质改变:一堆人做出不错的新东西,往往写一篇论文,弄个PR就完事,很少去推动与自家业务的结合落地,包括Deepmind做AlphaGo和AlphaFord也是如此。
OpenAI本质把自己定位成一家创业公司,而非巨头下属的研究机构。要知道Sam Altman可不是什么教授创业,曾执掌YC多年、参与众多初创公司从0到1的他毫无疑问是硅谷最懂商业的人之一。OpenAI从 GPT-3 开始就建立了一套适配LLM的产品打法,从开放API调用,到推出ChatGPT进入应用层(这意味着下场跟API客户竞争),再到建立插件生态要颠覆交互界面。坚定的产品化,坚定的建立造血能力,坚定的追求商业成功。这种做法对于学术界和大厂lab温室中的花朵,是难以想象的。
事实证明,产品驱动非常关键。早期开放商业化的GPT-3 API,让OpenAI收集到了大量人类真实输入,并针对性搜集了人工示例(human-written demonstrations)作为训练数据。通过用户提交的prompts反映需求分布,然后通过优质的人工标注来持续牵引模型的生成倾向,为 OpenAI 带来了生态和用户数据的飞轮。
产品驱动的背后,是OpenAI领先世界的工程能力支撑。计算机领域有一个著名概念叫做「human in the loop」,将一篇科研文章变成一个产品原型,然后做用户输入、数据回流、标注、再训练的闭环,这需要极其高超的工程能力,知易行难。目前训练大模型的工程方法里,RLHF和Alignment中最重要的贡献都是OpenAI提出的,OpenAI在blog里强调,这里面的工程积累就可以类比制造芯片和飞机引擎了。
关于训练LLM的工程难度,Hugging Face创始人Clem Delangue有一段访谈非常精彩(翻译成中文会有点绕):
训练大模型仍然是非常困难的工程挑战,是技术、科研和项目管理技能的独特结合。这不仅仅是如何正确进行模型训练的问题,而是要预判还需要做多少训练才达到预期。这关乎判断何时可以发布产品、还是应该继续优化模型,是否开始为期六个月或三个月的大规模训练周期,还是应该做实验继续尝试。
从2020年6月GPT-3开放API,到2022年底ChatGPT火爆出圈,这种产品驱动的数据飞轮已悄然运转了两年半。每个月有一亿人在给 ChatGPT 生成对话数据训练下一代模型,这是任何学术机构和互联网公司都难以企及的——如同开启一切的那篇论文标题「Attention is All You Need」,模型性能终有差距拉近的一天,但之后类似产品形态的聊天机器人想要汇聚如此巨大的关注度和用户量,几无可能。
颇具戏剧性的是,国内的互联网巨头们往往以产品和商业化能力自豪、因缺乏基础研究能力而被舆论诟病。但OpenAI赢得战争的关键或许正是:坚定选择产品和商业化驱动的AI研究道路。
4.2 主流叙事对国内LLM「矫枉过正」的低估了
过去几个月,我们看到A股群魔乱舞,能沾上边的公司都站出来说自己要做大模型,创始人们一夜间变成了AGI的资深信仰者,引得真正做AI的朋友们纷纷吐槽「这些公司根本没囤过卡,阿里云腾讯云的A100现在自家用都很紧张,拿着LLaMA做下finetune,就敢出来说是自研模型?」
媒体们也用狐疑的眼光打量着国内的大模型战局,一些人带头开始反思,把「缺乏创新」、「没有梦想」的帽子往国内几家巨头乱扣一气,整体叙事非常悲观。
但实际上,国内几家巨头和学术界里,长期跟进LLM前沿进展、在踏踏实实解决难题的人是不少的,跟硅谷的交流往来也很密切。要知道OpenAI不止是领先国内,而是领先全世界。共识性的预估是,GPT-4领先Google、Anthropic几个月,领先国内1年多。确有代差,但本质是方向判断的失误,需要时间追赶,而非技术底层有什么不可理解的差距,无需矫枉过正。
回顾历史,传统的NLP/CV领域,国内研究进展是和美国并驾齐驱的。Bert出现后的一两年间,国内的技术追赶速度也很快,提出了不少优秀的Bert改进模型,比如百度的Ernie 1.0。真正差距拉开的分水岭,是在2020年6月 GPT-3 出来之后。但这并非只有国内判断失误,而是全世界都被Google的Bert带歪,错判了未来技术路线,导致如今不止国内,Google和Meta也都还在掉头追赶的路上。
在预训练模型发展的早期,技术框架收敛到了Bert (Google) 模式和GPT (OpenAI) 模式这两种不同的技术范型,而且全世界普遍更看好Bert模式一些,相当多数的后续技术改进,都是沿着Bert那条路走的。
大型语言模型(LLM)技术精要,张俊林
当下国内真正在做LLM的巨头里,好几家还在埋头憋大招,聊下来普遍的benchmark是在接近GPT-3.5的水平。而在开源模型中,清华ChatGLM在工业界和学术界都有很高认可度——很多硅谷VC、AI startup创始人和OpenAI员工的访谈文章中,都会频繁提及GLM是优秀开源模型的代表。GLM在Hugging Face上全模型like数排名第11,如果只看LLM赛道,则仅次于Hugging Face自家的BLOOM,排名第2。
GLM在各种性能评测中表现亮眼
国内的LLM确实还在追赶,确实还有大量工程难题需要解决。但复现总是比摸索容易得多。受到斯坦福Alpaca启发,当前国内普遍在用的追赶技术路线是「使用GPT-4来进行指令微调」,也就是将指令编写过程委派给GPT-4,「蒸馏」GPT的知识,通过跟GPT-4的交互积累足够多输出数据,再拟合训练自己的模型。由于GPT-4的优秀能力保证了数据质量,这种路线显著降低了训练LLM的门槛。
另一方面,人员自由流动的市场里,技术很难有真正的机密可言。一位谷歌员工公开表示,通过保密来维持技术优势几乎是不可能的 (Keeping our technology secret was always a tenuous proposition... we can assume they know everything we know),更不用说找OpenAI员工做专家访谈已是半公开的秘密。国内追赶技术所需的时间,或许比预期更短。
更多掣肘和考验来自于技术之外,比如商业考量、部门墙和尚不明朗的监管。
一位头部互联网公司的NLP团队负责人跟我感叹:相较于技术的暂时落后,当下国内无论是大厂还是创业团队,做大模型最先面临的其实是决策风险。
如果理解了上一章中关于开源和闭源的探讨,这句话也就很好理解:
- 最终跑出来的开源模型,在社区力量的加持下,性能大概率仅略低于最顶尖的闭源模型,而远高于普通水准的闭源模型。
- 如果自研闭源模型做不过开源,那是毫无意义的,到时候要去哪里收回数亿起步的训练成本?如果选择开源策略,你的模型又有信心成为网络效应下最后吃鸡的赢家吗?
对于不缺资源、笃定要自研模型的几家巨头,部门之间错综复杂的利益高墙又成了主要阻碍。
对巨头而言,2B卖API才能挣几个钱?大家都在观望微软Bing和Office这些产品接入AI能力后,到底能带来多大增量。万一AI对话界面真能颠覆以前搜索的场景,那搜索的老板怎么想?大概率是:我这么赚钱的部门,凭什么接AI中台研发的大模型,而不是自己搞一套?不然我的业务成了AI套壳,我的价值在哪里,岂不是要被干掉?
说到底,大公司做LLM,第一目标是加持已有业务场景,而现金流业务更担心被AI能力内部颠覆,利益天然是冲突的。业务和中台各搞一套大模型在当下已是常态,AI中台往往说业务接入我们模型不积极,缺少应用场景收集数据和迭代,效果怎么能好?业务老板则反过来表示,正是因为中台做的效果差,我们才要自己搞一套。日光之下无新事,Google由AI引起的内部纷争,也会在国内大厂里重演一次。
技术从来不是障碍。大模型必须是「一号位工程」,不仅仅是因为投入大、困难多。有很多取舍、决断和利益分配,是一号位责无旁贷的。
至于监管,就像游戏影视出版等等一样,中国特色的大模型是必然,强有力的GR团队也是必须的。「价值观对齐」是整个赛道能在国内存在的前提,为了本文能发出来,就没有展开说的必要了。
二、秩序重构:
AI世界的垄断新王
AI是共识,但如何在AI浪潮中捕获最大价值,却是非共识。
当前的AI应用和早期iPhone应用是一组相映成趣的对照:移动App生态之初,手电筒、天气这类工具应用轻松获得了千万级用户,《水果忍者》和《愤怒的小鸟》风光无两。但到移动端的终局,我们看到最后赢家是微信、抖音这样建立在网络效应上的垄断者,以及《原神》这种构建了产能壁垒的游戏。事实证明,2010年的手电筒和天气App并没有任何竞争壁垒可言。
反常识的是,技术在大部分时候也很难形成壁垒。
上一波AI周期里把CV算法做到极致的四小龙,到今天都难以盈利。几年前一套人脸识别解决方案卖上千万,现在只值30万——如果只有一家公司能把人脸识别算法做到商用级别,自然有随意定价的权力,但如果每家都能做到大差不差,拼的就是价格和渠道关系。任何技术都有成熟期,成熟期的领先者可能仍然保持着算法优势,但那只不过是识别率99.9%和99%的微弱差异而已,甲方并不care。所以技术的竞争到终局,往往演变为成本和渠道的竞争。
任何陷入竞争红海的生意都是很辛苦的,超额利润来自于定价权,而定价权来自于垄断。
新范式的出现必然导致产业价值链转移,当线上世界的秩序被AI重构,新的垄断会在哪个环节发生?
当下所有游戏公司都会说自己是一家「AI+游戏」公司,二级的游戏板块也乘AI概念东风涨势喜人。但降本增效真就是AI的全部意义吗?当范式被重构时,最常见的谬误恰恰是「削足适履」,想把新技术简单嫁接在老系统里。典型例子是移动时代后,百度高喊着mobile first,却只是做了一个手机百度App,没有深刻认识到移动生态完全重构了信息分发方式。
面对终将被AI重构的线上世界,唯一有效的判断方式是:先画出未来AI世界的图谱,再看公司处于图谱中的哪个位置。
这张图是对AI世界一个简单粗暴的划分框架。我们在这个框架基础上,对每一层的代表性公司做简单讨论。
AI基础设施
AI基础设施是未来线上世界的水电煤,在最底层运作。即使时至今日,让大部分公司无法进入AI世界的门槛依然是:缺乏足够应对大模型训练的Infra和MLOps工具。
基础设施层是这波AI浪潮中投资者共识最强的,无论云服务商,还是更上游的GPU和台积电晶圆厂,都是极高门槛的寡头游戏。A16Z在《Who Owns the Generative AI Platform》里已经写的很好,这里不重复展开。英伟达Q1的出色业绩已经说明一切:巨头们搞大模型军备竞赛,最后挖矿的谁能赢不知道,但买铲子的一定赚钱,且短期内有高议价权。
值得注意的是,云服务还是重要的AI应用分发渠道,比如微软的潜规则是Azure大客户更容易获取GPT-4 API使用资格。Anthropic也和Google Cloud官宣了合作关系,未来这种训练、部署和分发渠道一体化的LLM-云服务间的深度绑定会是常态。
微软的云服务 Azure 在中国云计算市场本没有太强的存在感,更多是接入跨国公司的中国业务,但现在客户多到排队。因为它是 OpenAI 商业化的唯一云代理商,中国企业如果要在境内稳定使用 ChatGPT 背后的大模型,就只能找微软。
晚点LatePost
基础设施中另一个重要部分,是面向AI模型训练的工具/数据/服务。比如和OpenAI建立了合作关系的标注公司Scale.ai、向量数据库Pinecone和Zilliz,在硅谷VC圈子里都很受追捧。国外的中间件生态很健康,大公司也有使用各种第三方组件的习惯,但国内情况则完全不同。
降本增效的主旋律下,国内大厂中台当下都在「抢事情做来证明自己价值」,好不容易等来LLM这个证明自己的新机会,工具和组件肯定会被in house做掉,第三方组件公司很难在国内跑出来——反正开源的解决方案那么多,比如相较于用外部的向量数据库产品,大家更愿意在Meta开源的FAISS上层层封装、晋升答辩。如果还要采购第三方的组件和服务,那大厂养你中台何用?
AI基础模型层
AI模型层的公司构建基础模型,并将其作为主要产品商业化,这一层依赖基础设施层提供的硬件和工具,以进行数据处理、模型训练和部署。
OpenAI是目前最著名的模型层公司,Google和Anthropic等紧随其后。如同上文讨论的,基础模型层最重要的区分是开源还是闭源。
「狭义」模型公司的商业化方式是把模型能力封装在API中按调用收费,比如Jasper和Notion调用了GPT,Quora和RobinAI和调用了Claude。API调用的单位token成本根据客户所需性能而不同,性能更好/速度更快就更昂贵。
OpenAI的API定价模式
AI应用层
AI应用层里可以划分为两类:AI原生应用和AI增强应用。
AI原生应用的全部价值都依赖于模型能力。比如Glow和Jasper的价值完全基于语言模型,MidJourney完全建立在图像生成模型上。当下AI原生应用的产品创新空间是巨大的——「聊天」作为一种轻量级的输入方式,并不能适配所有场景,更垂直、体验更好的差异化产品非常有价值。
在ChatGPT出现前,使用GPT-3 API的AI原生应用Jasper是被VC们争抢份额的新星。同期有一家名为Copy.ai的公司同样调用了GPT接口,但Jasper通过优秀的产品体验设计,把竞争对手远远甩在身后。
相比大家都很熟悉的ChatGPT界面,Jasper在产品形态上主要考虑了这三个问题:
1. 如何降低用户Prompt输入成本?下图的左边是Jasper模板功能的输入框,可以看到其本质是把Prompt拆解成结构化的方式让用户填空,界面友好度更高。再辅以对每个模板生成结果的精调,显著降低了用户在垂类场景生成优质内容所需的尝试次数。
2. 输出结果应该如何呈现?ChatGPT是一问一答,Jasper则每次提供多个答案,允许用户点赞、修改、收藏答案,并对多个答案排序。这种输出方式从体验上给予用户随意挑选的掌控感,也收集到更多feedback data用于后续生成时的优化。这就是为何大量用户评价:Jasper比ChatGPT「更懂我想要的文案风格」。
Jasper模板产品的界面
3. AI工具如何切入文案创作的完整工作流?早期很多Jasper客户反馈在写一篇完整的文章时,要使用多个模板,不断在Word和Jasper之间切换,容易打断思路和工作流。所以Jasper后面推出文档功能,允许用户在类似Word的写作界面直接调用模板能力,让用户在同一个界面中一气呵成地使用AI辅助写作。
时至今日,即使面临ChatGPT免费策略的打击,在很多Jasper重度用户(主要是营销和写作从业者)眼中,由于独特的「模板」产品形态、针对营销等垂直场景的模型微调,以及深入工作流的整合解决方案,Jasper在营销文案生成这个场景中的体验仍然优于ChatGPT。
AI增强应用则将模型能力整合到现有产品上,作为新功能提供给用户。积极拥抱AI的老产品里,Notion AI是最成功的案例之一。Notion原本是文档和笔记工具,去年9月通过调用OpenAI的API添加了一个扩写文本的新特性,后续又扩展到生成草稿、自动总结纪要、修正拼写语法等功能,短短几个月内就依靠AI获取了数百万新增付费用户,订阅收入飞涨。
AI文档产品已经出现了同质化竞争和价格战的雏形
有趣的是,有许多最早推出时与AI无关的应用,在新增AI相关功能后爆火,被动变成了「AI原生」应用。比如近半年来风靡全球的Lensa,早在2018年就已上线,之前4年都是个不温不火的修图App,加入Magic Avatars功能后直接就冲到AppStore榜首。有一位相识多年做海外工具类应用的创业朋友,也跟我说起:尝试性接入的AI新功能,为他们旗下App带来了超高的小额内购渗透率,用户有非常强的尝鲜意愿。
硅谷已经出现好几家年收入超过1亿美元的AI应用,抛开壁垒不谈,当下的AI应用至少是个轻快的好生意:模型层公司前置承担了绝大部分训练成本,API调用的价格也一降再降。纯粹的应用层公司几乎没有研发成本,模型调用成本也只占20%左右,两者结合到一起就是普遍高达80%的夸张利润率。
很多先行公司向我们展示了,模型性能和产品体验之间并不是完全线性的关系。随着大模型能力供给的快速过剩,差异化的用户体验设计对于AI应用层将越来越重要。
被AI赋能的公司
这一层是内部使用AI产品,但不向用户提供AI应用的公司。在未来,所有公司都将成为被AI赋能的公司,这种改变通常分为两步:
在短期,公司内的个人使用AI产品提高自己的生产力。比如程序员通过Github Copilot提高代码效率,美术通过SD/MJ提高画图效率,品牌经理使用ChatGPT编写营销文案等。率先使用AI的个体将在内部竞争中取得优势。
在长期,公司会以更系统的方式利用AI产品。随着越来越多的工作流软件整合AI功能,公司把AI深入融合到协作流程中,以增强整个组织构思、讨论、解决问题的能力。
企业IM、视频会议、在线协作文档这些工具最早只是互联网公司使用,但现在已经是很多传统企业流程的标配,AI能力的普及也会经历这样一个从标杆到泛化的历程。
回到「AI世界的垄断会在哪个环节发生?」这个最关键的问题。当下无论是中美,无论是一级二级、科技巨头还是初创公司,对生成式AI的最大分歧是:价值中枢到底是模型层还是应用层?
Youtube和Podcast里有很多高质量讨论围绕这个焦点展开。硅谷VC们更多表现出的,是对模型层公司商业前景不明朗的担忧、对大模型能力最终差异化程度的谨慎,美国频频官宣大额融资的更多也是应用层和Infra公司。而国内的投资人还是聚焦在看大模型,期待能讲一个中国版OpenAI的故事。
从历史中看,软件行业的最终赢家是直接掌控用户和数据资产的平台型应用,「只掌握技术」在互联网世界里被证明并没有价值。但在硬件行业,对标AI模型层的半导体设计/制造公司,比下游直接面向用户的电子产品公司有更高的集中度,高通、台积电和英特尔在各自领域都有极强的话语权。
赢者通吃,5家公司赚走了半导体行业大部分利润
AI世界的演进路径会更接近互联网还是半导体行业,终局垄断会发生在模型层还是产品层?
在这里我先抛一个「暴论」:
大模型的意义被显著高估了。技术只是满足需求的手段,具备全栈能力、有自研专业模型的端到端应用将成为AI世界的垄断新王。
1)摩尔定律与S曲线
几乎所有技术的价值都取决于性能S曲线(Performance S-curve),大模型也不会例外。这是一种性能随时间变化的趋势,在很多技术的发展历程中被反复验证:起初平缓,中间阶段快速起飞指数级增长,成熟期再次趋于缓慢,最终达到技术上限。ML领域很多算法在特定任务上的表现都符合S曲线特征,感兴趣的可以去查阅CV领域ImageNet视觉识别挑战比赛(ILSVRC)近十年的结果。
或许是由于国内第一波拿出来的半成品们表现实在欠佳,大模型的「性能差距」在简中互联网被过度强调了。当下大模型毫无疑问正处于性能增长期,但即使是图灵奖得主们都很难判断,这种高速增长还会持续多久。

人们确信最终大部分模型性能将趋于一致,但在此之前的高速增长期会持续5年、10年还是20年?这将会导致世界线的截然不同。
在LLM最终来到成熟期、性能增长放缓时,能建立起壁垒的当然还是应用。90分和95分的模型差异已经不大,纯模型层公司会面临和上一代做CV算法公司相似的窘境。科学问题到最后还是产品问题,毕竟迄今为止商业世界中最深的护城河——网络效应、规模效应、品牌和迁移成本等等,都是依附于具体产品而非算法存在的。
但是,在LLM性能高速推进的阶段,AI模型层的领先公司将拥有无可争议的话语权。技术很难垄断,但可以保持代差,2-3年的领先就能带来60分和90分的明显感知差异。
为何半导体行业有如此之高的集中度、在产业链中有如此之强的话语权?世界上最著名的一条S曲线就是「摩尔定律」。我们的现代化生活,都得益于晶体管数量持续数十年的指数级增长。预测摩尔定律何时达到S曲线顶端的历史由来已久,如同下面这张《经济学人》总结的表格——绝大多数人都过早预言了摩尔定律的终结。
摩尔定律在S曲线的高速增长期坚持了如此之久,其背后有两个半导体行业显著区别于其他行业的特征在支撑:
1. 巨头们通过巨额研发投入,持续保持了每一代产品的技术领先,把性能的护城河从上世纪80年代一直维持至今。维持性能领先需要不断解决新困难(比如量子效应),所需投入是越来越夸张的,5纳米级生产线晶圆厂的建造成本约为54亿美元,是10纳米级的三倍。要知道,大部分技术最终发展放缓,不是因为已触及物理限制,而是由于经济限制——技术里低垂的果实被摘完后,性能提升会越来越难,其带来的收入增长和所需巨额研发成本往往是不匹配的。
2. 那支撑巨大投入的底气从何而来?答案是:消费市场对性能永无止境的需求。人们永远想要速度快2倍的手机和电脑——电子设备性能对于使用体验是决定性的,过去十年间消费者的换机周期,几乎跟摩尔定律的倍增时间完全一致。能把设备性能压榨到极限的应用和游戏层出不穷,游戏的画面越好,处理它们所需的晶体管就越多。正是对这种需求的预期,支撑起半导体行业陡峭的研发投入曲线。本质上,「对更多晶体管的无限需求」是摩尔定律延续的驱动力。
大模型公司想要成为台积电和高通这样的行业价值中枢,必要条件是:大模型性能长期持续呈现「摩尔定律」的增长曲线。但是,AI和芯片两个行业之间的差异也是非常显著的。
第一,软件相比硬件更难保持技术的长期领先。在门槛上,大模型的训练成本很高,但和造芯片动辄几十亿的投入相比还是小巫见大巫。在跟进速度上,软件可以实时迭代更新,要抄个新功能简单灰度后就能全量,但硬件需要更长的产品周期,设计、原型制作、工厂生产、测试这一套流程至少要几个月,领先者有更充足的时间窗口。软件行业的知识是跟人走的,流通性很高,挖一个主策就能带走全部配表和文档,但硬件还受到IP Tree、制造工艺和供应链的复杂制约。这就是为何很多AI前沿学者认为:即使在高速发展期,大模型的供给也很难被OpenAI或Google垄断。
第二,消费者对手机和PC「性能」的需求是无限的,但许多App实际需要的「智能」程度有上限,落后一代的AI模型对应用层仍将非常有用。未来的GPT-5、-6、-7...会一代代性能越来越好,但很多场景下,体验只要达到用户的感知阈值线就没有差异。GPT-7可能是跑分最高的模型,但简单的翻译任务用GPT-4性价比更优。3A游戏的NPC对话或许必须调用GPT-7才有足够沉浸感,但电商自动化客服用便宜的GPT-5完全能满足。
如同OpenAI前产品老大Fraser在博客里写的:Capability is only one measure of performance that matters when building a product. Latency and cost matter too and the optimal capability/latency tradeoff is specific to the product experience being delivered. 模型能力只是构建产品时的性能衡量标准之一。针对产品体验要具体考虑的,更多是性能、延迟和计算成本间的权衡。
半导体行业「巨额投入保持性能领先」这套逻辑的经济驱动力,在大模型赛道是无法成立的。
2)Full stack是唯一解
实际上,当下模型层和应用层公司之间的关系非常微妙。
Jasper在被OpenAI背刺后,接入了多家大模型公司的API做聚合,最近更是宣布开始自研大模型。而OpenAI通过推出ChatGPT进入了应用层,要做插件生态、做原生的移动端应用,把不甘于只做API提供商的野心尽数展现。跑在AI世界最前面的创业者们认知实质上是统一的:同时占据模型层和应用层的「全栈」公司才有捕获最大价值的可能。
目前ChatGPT官方App已经在iOS美区上线
这背后的道理也很简单:
1)AI时代控制模型才能控制产品体验
2)数据反馈对模型改进至关重要
越来越多的研究发现,相比参数规模,训练数据的属性(比如风格和长度)对LLM生成结果有更大的影响。Replit(AI辅助编程独角兽)创始人Amjad在访谈中有一段话令我印象非常深刻:
开始做Ghostwriter编程助手的时候,我们就想要自主托管模型,而不仅仅依赖于API。主要的原因是我们真的想控制延迟,真的想控制生成内容质量,希望能够随着时间的推移改进它,希望能够收集数据和反馈,并对其进行迭代。
对于一些产品用例,比如聊天机器人之类,使用API是可以的。但对于Ghostwriter这样离用户非常近的产品……我们认为端到端全程精确的掌控用户体验非常重要。
一开始我们尝试了所有的开源模型。然后我们找到了来自Salesforce的Codegen。我们做了一些微调,找出了如何根据用户反馈实时改进模型的方法。产品发布之后,我们收集到更多的数据,我们知道什么功能是缺失的,所以现在我们正从头开始训练一个自研的模型。
The Future of ML with Replit and
 Weights & Biases
API本质是一种外包。很多东西可以外包,但把最最核心的东西外包出去当然是不靠谱的。我们很难想象一款把世界观和角色设定外包给第三方写手的二次元游戏会成功,同理,依赖API就意味着把核心用户体验外包给模型层公司,无法掌控、迭代和进化。
真正好的产品体验,是每一个细节都有意构建的结果。所有我们今天觉得无比顺滑的大型平台产品,都是几百个产品经理迭代了很多年的成果——但在AI时代,只靠堆PM是不够的,掌控体验意味着要掌控模型本身。
AI世界的数据反馈循环,应用层是最大的数据提供者
对自研模型训练迭代至关重要的高质量数据从何而来?毫无疑问,从自家应用中建立data feedback loop是最优解。这就是AI世界里最有趣的一点:应用层公司既是模型层的下游客户,也是数据提供者。
未来最好的专业化模型和最多用户的AI应用是一体的。即使OpenAI也是通过产品化,才拥有了数据飞轮的壁垒。Replit的成功也证明了:现有开源的模型的质量对很多早期应用来说已经足够。先落地产品去尝试更多的PMF场景,收集到数据反馈后再回过头来训练自己的专业模型、构建壁垒的路径是完全可行的。
世界奖励那些认真对待产品体验、愿意为此承担成本和复杂性的人。
3)效率是Beta,体验是Alpha
但另一方面,跟几位一级好友聊过之后,我也完全能理解他们对应用层公司的焦虑:经历一个完整的创业周期后,现在的巨头们比移动互联网之初远远更强大、更重视防御。
初创公司的成功大部分来自非共识,要在大公司不在意的角落悄悄长成大树,但生成式AI这一波形成共识的速度实在太快。ChatGPT用史上最惊人的用户增速,证明了AI巨大的商业空间。
在增长匮乏的年代,在共识性的激烈竞争里,初创公司实在很难加速到「逃逸速度」:用户和时长都在巨头手里,产品设计很容易模仿。而在现在的时间窗口进入模型层,跟巨头正面PK算力、数据和人才,也显得不切实际。
互联网的竞争是全面战争,在大家都意识到「这是个确定性很高的大机会」时,竞争的残酷是难以想象的。微软宁可被反垄断调查,也要把Teams与Office捆绑销售,这也确实让Teams后发先至,成功反超了Slack。
OpenAI已经和微软站在一起,即使GPT有阶段性的性能领先,但掌控了巨量B端客户群和C端时长、在不同业务上分别和微软竞争的Google、Meta、Amazon、Oracle乃至苹果,有多大可能在自家产品中调用OpenAI的API,集成竞对提供的服务呢?
相比美国,中国的互联网行业更是以「无边界竞争」著称的。大家都想玩无限游戏,都要自己做全产业链,上下游合作并不是稳定态。我们看到字节宁愿承担更高的成本,也要从阿里云迁移到自建云。未来更可能出现的是:大模型成为巨头的必选项,大家都在自己的生态里做全套垂直整合,既做底层大模型,也做应用,还做针对应用场景裁剪蒸馏后的小模型。

核心能力不可能假手于人,大模型对于巨头会像云一样,不赚钱也要持续做,至少能服务自家业务,即使模型能力暂时落后也会长期投入——对巨头来说,最稀缺的永远是「确定性」。
Transformer并不是机器学习领域的第一次革命。在过去二十年,每一波机器学习创新浪潮(RNN、CNN、AlexNet、GAN...)创造的最大价值,最终都流向了已有成熟产品和业务的公司。真正的大型AI应用,出现在Google(搜索/广告)、字节(推荐/广告)、Netflix(推荐)和Amazon(Alexa)这些大公司之中,算法为如今并称的「推广搜」三大场景提供了巨大的价值增量。而CV四小龙和自动驾驶公司这样宣称自己是「AI first」想以算法能力取胜的新公司们,并没有取得真正令人瞩目的商业成功。
这一次的Transformer浪潮会是个例外吗?
AI并不是用户最终的目的地。相反,他们在等待AI转化为有用的产品和服务——最好是他们已经在使用的产品和服务。根据The Information在5月10日的报道,引入ChatGPT后的三个月里,Bing在PC上的搜索份额仅增长了0.25%(微软回应这家媒体称,移动设备上的增长率更高)。这揭示的残酷事实是:单靠生成式AI并不能重置竞争格局,让用户切换平台的难度或许超出预想。
与此同时,大公司们正纷纷加班加点,将AI新功能引入自家已有几亿用户的产品中。所以相比于早期VC们的观望和焦虑,二级看TMT的朋友们普遍忙碌和振奋了起来:至少未来几年里,互联网大厂们不缺新的增长故事了。
GPT加持并没有让Bing一飞冲天
很多人都来跟我讨论,在这波AI浪潮里是做效率(productivity)还是做新体验(kill time)?我的答案是:效率是Beta,但体验是Alpha。Beta的价值最终一定会流向巨头,真正的新机会蕴藏在Alpha中。
效率的提升是共识性的,需求更明确、更universal、可客观衡量,大部分被验证的AI功能最终都会被整合进已有的成熟产品里。
但体验是细分的、长尾的,需要对特定人群需求的深刻理解。我们看到大厂做的二次元游戏往往被批评没有真正的「二次元味」,而即使是LVMH也要靠收购潮牌才能获得年轻消费者。坐在云端办公室里的高管们,怎么可能第一时间知道街头的年轻人们在想什么?
三、因缘假合:
难以落地的「降本增效」
生成式AI作为游戏公司内部的提效工具,已经是一个被说烂的话题。无论媒体怎么渲染游戏人即将被AI取代的焦虑情绪,实际聊下来,行业里对AI落地效果的评价是非常割裂的:
很多游戏公司的市场和运营团队已经在全面使用AI工具,对效果评价颇佳。官方微博和公号的文案、日常的通知推送用ChatGPT润色。渠道活动的KV海报、赛事物料这些外围偏流水线的美术资源需求,先用SD/MJ出初稿再让设计师优化,也确实对效率有提升。
中小研发团队对AI非常兴奋,认为这是和大厂缩小美术品质差距的最佳机会。这些团队之前无法接触到一流画师,美术产能也捉襟见肘,对成本非常敏感。AI模型学习了网上大量顶尖画师的公开作品,就算生成的图片只有50%的水平,对中小团队来说也是「从无到有」的重要差异。
真正的头部研发团队则表示AI对效率的提升远低于预期。老板亲自推动、投入过亿人力成本去尝试,最终也无法将AIGC工具真正系统性的纳入工作流。同时,头部团队对成本并不敏感,对美术资产的标准也是极其苛刻的,AI生成内容并不能达到质量要求——往往是项目组内的大牛画师看了一眼SD/MJ生成的结果,叹了口气表示「相比修改,还是我重画更快一些」。
为了规避监管和舆论风险,到公司层面就更加谨慎。腾讯和网易都严格要求自研项目不得在游戏内直接使用AI生成的内容,即使用于宣传物料也要特意标注。
大厂体系内的项目组当前普遍处于「个人使用AI提高生产力」这个阶段,主要体现在两个方面:
第一,灵感激发:
一位头部游戏的Creative Director给我打了个有趣的比方:创意设计从0到1的环节就像是「抛纸团」,以前经常是靠漫无目的的看电影/玩游戏,才偶得一瞬的灵感火花,他有个灵感库专门记录这些转瞬即逝的念头。ChatGPT现在成为了更高效率的「抛纸团」抓手,创意枯竭的时候,去跟ChatGPT聊几句、让它出几个参考案子总是会有帮助。同理,美术在正式开始画需求前,也会往SD/MJ里随意抛一抛纸团,看能否激发出新的灵感。
第二,提升沟通和对齐效率:
游戏研发不同职能间的知识壁垒很高,程序/策划/美术互相不具备对方的专业技能,上下游间存在大量难以沟通的模糊地带。模糊地带的对齐成本很高,比如设计英雄的策划为了给原画说清楚「我想要的这个角色是什么样的」需要找几百张参考图,万一画了几天发现不符合预期,版本进度就有风险。AIGC的低成本很大程度缓解了这个问题,用SD/MJ快速生成的内容虽然远远达不到最终品质标准,但足以在前置沟通中锚定概念和风格,让上下游之间更高效率对齐目标。
但是,在个人使用之外,「把AIGC系统性纳入研发工作流」这件事,落地速度是远远低于预期的。对此已有很多归纳式的讨论,从第一性来演绎,也有其本质原因。
1)「新奇有趣」到「稳定交付」之间仍有鸿沟
OpenAI前任产品老大Fraser有一篇博客文章叫做《Novelty vs Utility》(新奇性 vs 实用性),我很赞同他文中的观点:我们正集体经历幸存者偏差。生成式AI热潮更多是由其「新奇性」引发的,而非「实用性」。
他的论述是非常有趣的:生成式AI的输出是多样化、概率性的,谈论AI的大部分人,并不是ChatGPT和Stable Diffusion的重度使用者,那为何AI的强大能力仍旧能成为大众共识?
——因为今天的媒介传播是如此发达,大部分人都是从群聊、抖音、小红书和微博里,刷到各种跟ChatGPT对话或AI绘画的截图/视频,从而建立起对AI能力的认知。在这些广为传播的meme里,AI的表现非常让人惊叹。
互联网很像一个大型冒泡排序系统,无论是算法推荐还是社交分发,只有用户喜欢并转发的内容才会被传播。大众所见的,是从每天数以万计的AI生成内容中,被选择并冒泡出来的最有趣、最惊艳的那些。人们对AI能力的评价,更多是被这些广泛传播的对话或画作影响,而不是基于自己实际使用的体验。这就是模因传播带来的集体幸存者偏差。
新奇>实用,这也正是一线从业者们对生成式AI的共识。很多长期使用SD/MJ的策划和画师都对我表示:AI对他们是相当新奇有趣的消遣玩具,但很难作为正经的生产力工具使用。
「抽卡式创作」这件事本身就有一种随机性的游戏乐趣在,本质上更接近kill time而非productivity的场景。所以我们看到,Midjourney用户更多是为尝鲜而来的泛用户而非专业设计师,discord频道里很多用户说它「就像一款能让我上瘾的游戏」。
但在实际研发中,美术资产需要的是精确、稳定、可控的交付,有非常明确的productivity需求。如同我们在上文《未来变量:当LLM进入多模态领域》章节中讨论过的,当前的文生图应用离稳定交付的标准还有很大差距。更不要说占美术成本大头的是3D资产,模型、动作、场景的生成虽然都有创业公司在做,但目前还是当玩具都勉强的初级阶段。
Attention is All You Need,注意力正是在一个个meme中悄然凝聚的。星穹铁道「无尽的三月七」活动思路是个很好的样板——在当前阶段,游戏公司与其对资本市场讲AIGC降本增效的故事,倒不如想想如何面向玩家发挥AI「新奇」的第一属性,把产品特性和AI结合到一起创造meme,在公域里抢夺用户稀缺的注意力。
2)通用大模型无法满足「高价值工作流」的需求
也有朋友跟我讨论:都是做提效的场景,Jasper只是调用GPT-3的API,就被很多营销从业者称赞确实提高了生产力。那为什么AIGC在游戏行业落地这么难?游戏行业有这么特殊吗?
前Google Brain科学家、现AI初创公司CEO Maithra Raghu有一篇著名文章“Does One Large Model Rule Them All?”,她对大模型未来格局的判断,是对上面这个问题的最佳解答:
通用AI模型可以满足相对低价值、场景模糊、长尾的大众化需求(比如客服会话、日常翻译等)。但高价值的工作流将由专业化的AI系统主导,而非通用AI模型。
这个观点初看很反直觉,最先进的AI能力似乎都来自通用大模型。但这和不同公司对AI「冰火两重天」的分化评价,是极其一致的:
在所有内容类别里,游戏制作流程的复杂度和成本最高,跟其他行业(比如写小说和创作音乐)相比,游戏研发当然是最高价值的工作流。而在游戏研发内部,价值越高的工作就越难被通用AI工具满足。比如MJ生成的图片对质量要求99分的头部游戏来说是完全不能接受的品质,但对于换皮手游和休闲游戏来说,甚至是品质升级。
游戏是复杂度最高的内容类别
Maithra Raghu的论证逻辑十分清晰,三个关键点我们在前文也有所提及:
1. 高价值的工作流程对产出质量要求极高,而模型的专业化对质量提升至关重要。OpenAI的研究证明,通用基础模型需要更多参数和更大训练投入,付出更高的推理成本和云资源占用,才能达到专业化模型在专长领域的表现。通用大模型更类似一个各科目都能考到80分的通才,但实际工作中更需要的是单科达到满分的专才——用来生成轻小说风格NPC对白的语言模型,并不需要撰写研报的能力。
2. 高可控性的专业化AI才能和工作流完全匹配。高价值工作流的复杂度和耦合性很高,需要定制化的AI解决方案,这意味着整个AI系统的架构必须灵活可控,可以根据需求重新定义数据、模型和工具之间的交互。但通用大模型是很不灵活的,想要细致控制外部提供的大模型,从工程(仅靠API很难支持多样化的微调)、成本和安全性(模型公司会担心参数泄漏)的角度来看都是不现实的。这就像标准化SaaS再高大上也没有定制开发的OP好用,对Unity做深度魔改已是头部项目组标配。低价值工作流可以去适配工具,但高价值工作流更需要工具来匹配自己。
3. 专业化模型必须用专有数据训练。高价值领域必然有大量专有数据,比如游戏里特定风格的美术资产和玩家行为数据。美术风格的统一是游戏沉浸感的首要准则,《原神》的场景建模再精美,出现在《逃离塔科夫》军事写实的世界里也非常违和。每个品类/题材/世界观的最优AI解决方案,都需要不断投喂对应风格的精准数据进行训练。然而,这些数据正是公司的护城河,不可能输入到外部通用模型里训练。
当下声称用AI降本增效的公司,绝大多数是在用ChatGPT/SD这些通用模型做低成本的尝试。但本质上,通用模型和游戏研发的「高价值」属性是完全不匹配的——这就是为何AI对简单的文案工作提效明显,但在复杂的研发工作流中迟迟无法落地。即使是育碧中台自研的Ghostwriter辅助工具,目前也只是能做到AI生成NPC触发事件后发出的声音(属于研发里价值较低的边缘工作)。只靠通用的AI应用和API,不自己训练专业模型,几无可能真正做到有意义的研发提效。
长期来看,游戏公司训练自己的专业模型是必然选择。我们看到Reference-only这样更低成本增强可控性的工作不断涌现,更匹配自家工作流的定制化AIGC工具也已是头部游戏公司中台共识性的方向。但是,这也意味着未来产品竞争的门槛被抬得更高:要跨越从「新奇」到「稳定交付」的鸿沟,所需投入是有极大差异的。如同Take-Two CEO在访谈中所说,AI tools will just “raise the bar” for the industry. 故事的终点很美好,但以当下AI军备竞赛里人才的价格,AI工具大概率会成为头部公司新的护城河,而非缩小差距的机会。
当然,作为技术乐观主义者,我非常相信上面所有困难到最后都会被解决。假定有一天稳定可控的AIGC工具已像Unity一样普及,游戏行业产能爆炸式增长。那么还有最后一个终极问题:
3)用户真的需要更多内容吗?
在2023年的当下节点,游戏行业的割裂和分化已是不可阻挡的趋势。这种分化既体现在需求层面不同玩家群体对体验诉求的巨大区别,也体现在供给端研发团队的产品理解、组织流程和技能树差异。
好莱坞老牌片厂和抖音MCN做的都是「视频」这种内容形态,但交流起来恐怕是鸡同鸭讲。游戏行业也一样——虽然都共享「游戏」这个名称,但服务不同人群的产品和公司,已经完全处在不同的世界。
游戏的乐趣是「彼之蜜糖,汝之砒霜」,SLG玩家并不在意武将的卡面立绘是否很有吸引力,玩MOBA的玩家也不需要一个自由探索的大世界。不同品类所聚焦的「核心体验」千差万别,真正的关键点是,AI对内容产能的加持有没有让玩家最最关注的「核心体验」变得更好?
对于年轻用户喜欢的强内容消耗游戏(二次元、蛋仔类partygame、传统console等),产能提升当然大有助益。但做这类产品的人才被牢牢掌握在「腾网米」御三家和欧美日大厂手里。国内大部分急于用AIGC概念提振股价的上市游戏公司,做的还是面向大龄付费用户群体的短平快「数值型游戏」,典型代表品类是卡牌、MMO、SLG。
无论怎么包装,这类产品的核心体验万变不离其宗,都是「成长变强的验证反馈」。有趣的是,正是由于早年间内容产能的缺乏,才使得研发端专注于数值体验的塑造——在Excel里拉拉公式,总比在引擎里做关卡的成本低得多。在十几年的品类迭代下,目标感和反馈的颗粒度越拆越细,养成节奏越来越快,炫耀释放越来越足。
供给和需求端总是双向奔赴。中国上一代主流玩家群体不是从小玩主机长大,他们的快感中枢恰恰是长期被「数值体验」驯化的:大R们最关注的还是服战、排行榜和PVP,是胜利和凌驾,而不是品质和内容。不能深入理解这一点的公司,往往会陷入供给与核心用户需求不匹配的困境:《龙族幻想》的品质非常好,但成绩大幅低于预期;SLG的研发成本远远低于MMO,但大R们还是纷纷表示「清空对手的快感只有SLG里才有」。
目前很多研发的思路是在数值成长体验逐渐形成套路以后,去对品质和内容做升级,幻想用AI能力抹平和头部产品的品质差距。但如今被一波波筛选下来还在玩数值型游戏的,都是身经百战的中年玩家群体。大家进来玩之前目标就很明确:我付费就是为了成为「人上人」碾压别人,而不是为爱发电。
匮乏年代里被长期驯化的用户,对体验诉求有着超乎想象的惯性。说得直白些,内容对数值型游戏只是皮相而绝非核心。皮相再好,也最多只对前几天的留存有提升,真正决定长线的还是核心体验设计:能不能给付费玩家提供充足的养成获得感、炫耀释放场景和碾压快感?而这些是AIGC工具完全无法代劳的。SLG品类沿革史上最重要的节点是「赛季」设计的出现,而不是更精致的建模、更好的战斗表现。
漕河泾势力的崛起,让「做内容」成为这几年来游戏行业的政治正确,我个人也非常喜欢这几家公司。但客观来看,必须认识到中国有全世界最复杂的经济纵深和人群分化,不同年龄和代际的玩家,对产品的核心需求是天差地别的。「更多的内容」并不是所有品类玩家的共性需求,也绝非解决产品线困境的灵丹妙药。对大部分游戏来说,「核心体验塑造」远远比「丰富的内容供给」重要得多。
AIGC在「降本增效」层面的意义被大幅高估了。
四、天之圣杯:
直抵根源的奇迹
我很喜欢陈悦天老师说的:做内容就是做感觉,用一种新的感觉去攻打旧的感觉是内容产业在任何战略层面都正确的做法。
把时间拉长看,所有新的感觉,本质上都源于供给的「稀缺」。
过去30年间,电影的视觉效果取得了惊人的突破。从实拍特效到CGI,大量视觉奇观级别的电影作品诞生。然而,随之而来的是观众对视效的阈值不断提升,炸裂的画面表现不再「稀缺」。制作精良的大片票房扑街越来越常见,人们开始对好莱坞的公式化电影麻木无感,觉得这些工业化流水线产品平庸、空洞、重复。
跨越30年的视效,角色姿势相同,对情感的触动却天差地别
视效无敌的速激10,却被观众纷纷吐槽审美疲劳。而今天重温30年前画面落伍的《肖申克的救赎》、《霸王别姬》和《玩具总动员》,仍然能感觉到那种触动灵魂的力量。类似的,有力的文字和旋律可以非常简单,「君不见黄河之水天上来,奔流到海不复回」并没有复杂的技法和结构,依然闪耀着千古无双的才气。时钟塔的魔术师们只是把魔术作为抵达根源的工具,技术和生产力在内容行业永远只是手段,「稀缺的体验」才是追寻的终点。
五源的创始合伙人刘芹有一段让我印象深刻的访谈:
为什么我们投资了快手? 
2011年,我们投资了小米之后,我们自己内部总结过,手机到底是什么? 
我们得出这样一个结论:手机是PC,但PC不是手机。什么意思?计算机的CPU,内存,各种各样的计算环境,其实手机都有。所以,手机具备了PC的特点。但是,手机还有三个非常重要的东西,是PC上没有的。 
1. 手机上有location(位置)的参数。因为手机你一直带在身上,是跟着你走的。 
2. 手机里面有通讯录。通讯录是什么?是社交关系。 
3. 手机有摄像头,有外放设备。也就是说,手机其实还是一个天然的多媒体生成器。
三点放在一起,我们看见和提出了一个非共识:下一代杀手级的应用是移动的、社交的和富媒体化的。
所以,真正重要的问题是:
什么能力是生成式AI独有,而以前不具备的?
什么是在供给爆炸的未来,依旧非常稀缺的?
What’s the game uniquely enabled by generative AI that couldn’t be done previously?
AI是远远超出魔术范畴、实现奇迹的魔法。AI底层能力的突破,不是为了更快的游戏生产,而是用AI驱动「以前不可能出现」的体验。新的游戏类型,将被AI独有的能力创造并定义。
我们仍处于生成式AI浪潮的早期,很难在今天准确预测AI原生游戏的演化路径和最终形态。但是,仍然有一些趋势是高度明确的。
1)UGC:规则与社交之辩
创作一款大DAU长线产品无疑是所有游戏人的梦想。今年上半年的最大黑马,正是凭借UGC和内容传播协同,打破腾讯对大DAU品类垄断的《蛋仔派对》。同时,海外大DAU产品们则更加激进的拥抱AI+UGC,Roblox2月份在编辑器中内测了用AI辅助材质贴图和代码生成。乘着AI的东风,「编辑器+UGC+AIGC」成为了共识性的机会,大量的单局型产品都公开表示将内置UGC模式。
很多人都认为,UGC平台类游戏将最先通过AI的惊人能力大幅提升体验,跻身「AI原生」之列。这看起来也非常符合直觉:AI辅助能进一步降低用户使用内置编辑器的门槛、提升创作品质,而繁荣的UGC生态又能给玩家提供更丰富多样的乐趣。
但是,UGC是一个大词,使用大词往往就会与真实概念和真实意义偏离。同被冠以UGC之名,不同游戏开放出来可供创作的内容和权限千差万别:
捏脸系统已经是RPG标配,创造并定义自己的角色本身就是轻度的UGC体验。
《蛋仔派对》、《马里奥制造》乃至《原神》去年的「神工天巧」活动,则更进一步聚焦在关卡维度,允许玩家创作并分享关卡。
最为原教旨主义的,莫过于以Steam创意工坊和Minecraft为代表的MOD UGC,玩家拥有了修改游戏的无限权力,可以通过修改代码,更自由地创造新的角色、关卡,甚至是玩法本身。
在AI浪潮来临的时刻,内置编辑器+UGC生态真的会成为所有单局型游戏的必选项吗?我们看到上一代最成功的大DAU单局游戏们,依然对UGC非常谨慎,比如王者荣耀的天工编辑器上线好几年依然没有正式开放。这背后的本质是:单局型游戏之内,依然存在着极其明确的类型和体验分野。
第一类,我们称之为「强规则」的单局游戏。
过往成功的所有大DAU游戏,几乎都建立在一套可重玩性极高的「对抗规则」之上。无论是MOBA、射击(爆破和Battle Royale)、自走棋乃至传统棋牌,最核心的玩法都是在确定的地图/模式/规则边界内,进行人与人之间的对抗。麻将和斗地主完全不需要频繁的内容更新,依然有极高的流行度和乐趣——正所谓与人斗其乐无穷,玩家们追求的,是在确定规则内不断磨炼技巧、从而赢得胜利的心流体验,而非内容的新鲜度。
这些强规则产品很需要UGC生态吗?恐怕要打个大大的问号。一方面,强规则单局的可重玩性极强,每一局都是全新的体验,玩家很难玩腻,由此降低了对内容生产能力的依赖。另一方面,即使是这些大DAU项目组官方花了大力气做的新玩法模式,玩家往往也对之兴致寥寥——《英雄联盟》玩法设计团队不懈尝试了十几年,最后也只有大乱斗和无限火力被玩家广泛接受,大部分新玩法模式都以失败下线告终。而国内很多大DAU产品的创新玩法模式,更是成为了活动节点的运营工具,参与率要靠运营给奖励才能勉强拉起来。要知道,这些大DAU产品的设计师们,已经是世界上最了解「规则设计」的一群人。
强规则导向之下,「赢」是一切意义的集合,体验的好坏与胜负结果紧密绑定。核心玩家体验诉求的最大公约数,是在确定规则下积累技巧、提升水平、赢得胜利、验证成长。正如同围棋冠军一定不愿意去转行下象棋,一套新的「规则」意味着所有人积累归零,从同一起跑线开始重新学习,这在用户动机层面天然就是缺失的。
第二类,则是弱化单局规则,强社交体验、强关卡消耗的游戏。
同为以单局为主的游戏,《蛋仔派对》和《马里奥制造》这类party game的单局体验,和属性严肃的强规则游戏有着极其显著的差异:弱化技巧积累和胜负结果,强调闯关过程的新鲜有趣,也就是所谓的「瞎玩图一乐」。
端转手的历程已持续了十年。这十年间,我们看到MOBA、Battle Royale乃至逃离塔科夫这类强规则玩法,一经验证马上成为厮杀惨烈的兵家必争之地。但在《蛋仔派对》出现前,party game通常被认为只不过是小品,《糖豆人》和《人类一败涂地》在Steam上再火,巨头们也对抄这个原型不感兴趣。
《糖豆人》的热度来得快去得也快
这背后的道理也很简单:传统游戏设计理论中,玩法深度和产品生命周期息息相关。玩法规则里必须有足够的精通空间,能让玩家形成技巧积累、感受到能力成长,才会产生心流体验,从而长期留存。
如果只能提供一时的新鲜感,那用户的长线留存将会面临巨大挑战——《羊了个羊》DAU很快达到了几千万,但大厂也完全不为之焦虑。人们都知道,被一时的新鲜感和话题性吸引聚集的用户,来得快去得也快,CS和LOL这样建立在久经考验的规则之上的产品,才是可以持续运营十几年的金矿。
所有人此前都认为,「持续提供新鲜有趣的关卡体验」这件事是不存在的,小品始终是小品,关卡内容消耗速度>产出这道题无解。而现在,共识被砸了个粉碎。《蛋仔派对》告诉大家:做好UGC,源源不断的新内容会有的,整活和新鲜感是可以持续的。
Party game里的单局,对可重玩深度的要求并不高。玩家们在意的,是初见关卡的新奇有趣,是和朋友一起体验的过程本身,是创造社交谈资和话题。正是这种低门槛为UGC生态的持续创造了可能——游戏本身优秀的3C和美术品质,为UGC关卡的可玩性保证了高下限。创作者不需要打磨规则,只需要自由发挥创意拖拉拽布置关卡。玩家们也是玩个乐呵,社交为主要求不高,反正只是一次性体验,什么千奇百怪的关卡都能接受,反向促进创作者更有动力创造内容。
《蛋仔派对》凭借在抖音的内容传播爆火,从本质上,两者的逻辑内核也确有异曲同工之处。正如同安迪·沃霍尔的名言「在未来,每个人都可以成名15分钟」。没有经过科班训练的普通用户,虽然拍不出可供反复观赏解读的严肃电影,但在工具辅助下产出的阅后即焚式速朽内容、促进多巴胺分泌的传播爆点,吸引几分钟注意力完全足够。
「规则设计」和「创造一次性体验的关卡」,两者难度有本质的差异。这也让两类游戏叠加UGC后,形成的生态完全不同:
强规则类用户群体对单局体验的极高要求,让项目组官方做的新玩法都屡屡受挫,更远远超出了普通玩家的能力范畴。为了支持实现更多玩法机制,编辑器使用起来也远比「拖拉拽」只做关卡要复杂。创作者们往往是略作尝试后,因为太难上手/得不到正反馈就迅速放弃,无法形成真正由玩家自发创造内容并正向循环的生态——魔兽争霸RPG图、DOTA2游廊这些强规则类游戏中内置的编辑器,曾经孕育了足以载入游戏史册的玩法创新,但如今它们生态中的玩家和创作者已完全割裂。绝大部分创作者早已不是纯粹的玩家,而是全职专业开发者组成的小型工作室。
当开发者并非出于纯粹的乐趣和热爱,而开始用现实眼光考量起实际收益,事情就变得完全不同。玩家想要具备高度可玩性的玩法规则,但自走棋这种爆款又可遇不可求,怎么办?全职开发者们最终把目光投向了久经验证的另一套规则体系——氪金变强。对抗图一个月几十美元,就可以出门比其他玩家多一个大件,很多塔防图的数值逼氪程度更是连页游都要自叹不如。时至今日,魔兽争霸和DOTA2这两款强调公平竞技的经典佳作,其UGC生态已经与页游平台无异。
pay2win成为国内强规则游戏内UGC生态的主流
这也正是为何所有头部的强规则类单局游戏,都对UGC这件事非常谨慎:站在项目组视角,我做UGC是为了低成本获取更多创意和内容来满足玩家的消耗,而绝不是为了把自家优质珍贵的用户资产开放给外部开发者收割变现的。只有真正激发玩家参加创作的UGC生态才有意义,但玩家能力又远远达不到「规则设计」的门槛,供需两端是无法匹配的。
回到AI。透彻理解这两种类型的区别后,事实就很清晰:在生成式AI的能力爆发中,弱规则、强关卡消耗、强社交这一类产品无疑将会吃到更多红利。
当下AI的能力还很难设计出完备的玩法规则,但对于单次体验型关卡内容的生成和优化已完全够用。正如《糖豆人》光速下滑的热度曲线所揭示的,玩法深度不够、内容量不足导致的低留存原本是这类游戏的致命问题,而AI+UGC正是一剂对症良方。项目组自身使用AI工具可以更快铺量,如果进一步把AI辅助融入到UGC编辑器中,则对提升品质、降低门槛有极大帮助。
Github上已经出现了在LLM能力加持下用自然语言直接生成关卡(text2level)的开源方案,虽然还非常初级,但放到一两年前这是科幻剧里才会出现的剧情。我毫不怀疑未来几年更多AI能力将被scaling law解锁,长期来看,甚至整个弱规则party game品类的生态位都将发生巨大改变。
共识性的机会面前,很多人对AI Roblox/蛋仔派对这个方向跃跃欲试。不过,最后我要泼一盆冷水。Party game的成功永远是社交属性的成功,而非UGC的成功。UGC生态只是这类产品从10到100长线运营中缓解留存问题、延长生命周期的良药,而不是从0到1的驱动引擎。更多party game面临的实际问题是:3C、美术风格和氛围根本就不吸引人,上线即死,谈何长线?
AI能力作为润滑剂可以大幅提升UGC体验,但依旧解决不了「创作动机」的问题。玩家们为爱发电创作的意愿和热情,是被社交认同的渴望锚定的。游戏不仅仅是年轻人们娱乐消遣的方式,更是社交小团体小圈子内交流和沟通的载体。创作的最大意义,就是在日益孤独的社会中寻找身份认同感。而要让一款party game成为社交话题,对底层3C、美术表现乃至内容传播协同,都有极高的要求。
正如抖音不是因为推出了剪映才赢得短视频战争的,AI在未来将是每一款UGC游戏的必选项,而非制胜关键。但在做UGC之前,所有人都需要先想明白,玩家要的是什么。
2)玩法突破:涌现与泛化
天下苦无新玩法久矣。
文章本天成,妙手偶得之。要创造一套极富乐趣、可重玩性高的玩法规则,不仅普通玩家做不到,顶尖设计师们同样力有未逮。强如当年暴雪,《风暴英雄》在MOBA品类里的迭代式创新也没掀起什么水花。全世界的游戏大厂(或许除了老任),都在确定性的品类里卷生卷死,而对于玩法创新踌躇不前。
某种程度上,行业这几年对内容生产力的强调,也是由于「玩法突破」实在非人力所能强求。正如steven老板在采访中所说的:玩法突破并不常见,在这种情况下,我们还需要更多内容的填充。在内容驱动这方面,米哈游已经给行业上了很好的一课,我们也要学习这一点。
LLM的神奇能力,是模型越过规模临界点后才得以「涌现」。与之相似,游戏史上几乎所有划时代的玩法规则原型,不是被专业设计师设计出来,而是在用低门槛编辑器创作的海量MOD中自然涌现、并被玩家选择出来的。MOBA原型诞生于war3编辑器,Battle Royale原型诞生于武装突袭MOD,自走棋诞生于DOTA2游廊、更早的原型则可以追溯到war3宠物小精灵和战三国地图——正如同闪耀人类历史的天才们不是被一套方法论批量培养出来的,只有复杂混沌、自由繁荣的生态系统,才能涌现出开创时代的革命性创新。
在过去,只有游戏内置编辑器才能支撑这种复杂生态系统,人人都有奇思妙想,「只差一个程序员了」虽是调侃,也反映着真实的痛点。传统用游戏引擎开发的方式中,「美术资产制作」和「代码实现功能」有很高的专业壁垒,需要多职能协作才能落地产品。编辑器内置了丰富且风格统一的美术资产、对编程做了高度简化和抽象,抹平了两个最大的门槛,让创作者能真正聚焦在「创意」维度不断尝试和探索。创意之神面前,众生平等。
而近几年来,我们看到《糖豆人》和《吸血鬼幸存者》这样优秀的产品原型,越来越多的作为单独的游戏出现。随着生成式AI浪潮来临,未来的「玩法涌现」必然不会再被局限在编辑器生态里——Unity和Unreal不会错过这个共识性的机会。
Unity在5月18日发表了一篇官方博文“Why we’re excited about AI at Unity”,以激进的姿态表示,Unity将支持创作者用自然语言生成工具,来创建代码、NPC、动画、物理效果等内容。当未来代码可以用AI辅助编写、美术资源直接用自然语言生成,用游戏引擎开发游戏的门槛,甚至会比当下使用游戏内编辑器做MOD更低——优秀的玩法原型即使画面简陋,也足以让玩家感受到强烈的乐趣,AI生成的美术资源或许很难达到3A大作要求的标准,但支撑《吸血鬼幸存者》这样的创意原型已完全足够。
游戏终究是供给驱动的市场。每一次玩法规则突破,都大幅拓宽了游戏用户的边界,创造了数百亿级别的流水。或许生成式AI送给游戏行业最大的礼物正是:极大缩短玩法突破的周期。
然而,历史告诉我们,第一个摸索出玩法原型的产品,往往并没有吃到品类的最大红利。新玩法创造的绝大部分价值,都被成功实现了「泛化」的产品捕获——一个玩法从无到有验证成立,肯定是抓住了一个特定群体的需求,但特定群体偏好的一些元素并不具备普适性(比如难度和美术风格)。在这套玩法框架内去伪存真,提炼核心体验做适合大众的改良,第一个把它带到最大量级用户面前的产品,才是品类最大的赢家。
涌现创造价值,泛化收割价值。
很多人拿DOTA->英雄联盟->王者荣耀的例子,说「泛化」是拥有天量用户的大公司们的专属权利——毫无疑问这是错误的。把史上最成功的「玩法泛化」的胜利,简单粗暴归因为渠道红利是一种懒惰,这忽视了《王者荣耀》在单局体验、易用性和局外系统设计上做出的惊人突破:
最匹配移动设备的基础3C是什么?
适合现代生活节奏的单局时长应该控制在多少?
如何调整战斗数值使得TTK与单局时长匹配?
哪些带来高挫败感和负反馈的设计应该被剔除?
排位系统应该验证技巧还是验证活跃,才符合最广大玩家群体的利益?
...
这里每个问题的「泛化」解法,都凝聚着巨量know-how与深刻的用户洞察。随便拿第一个问题「基础3C泛化设计」举个例子:
MOBA起源于RTS,所以无论是DOTA还是LOL,基础3C里最重要的操作交互都是带有RTS血统的「目标选择」。到了移动端,《虚荣》这种产品也刻舟求剑,选择用「点触」交互来复刻PC端目标选择的操作。《王者荣耀》早在DEMO阶段,就放弃了RTS血统的「目标选择」,转变为更具有ACT气质的「位置判定」——王者中几乎没有DOTA和早期LOL里的目标指向型技能,绝大多数技能是高判定范围的AOE,移动能力也给的非常足。关羽/马超/上官婉儿这种左摇杆控制的英雄,被玩家们盛赞为极具新鲜感、令人上瘾玩一天也不腻。本质上,《王者荣耀》完全放弃了传统端游MOBA中视野、信息掌控和距离的博弈,自立了一套技能释放方向/位置和强大移动能力之间的博弈体系,核心战斗体验和传统MOBA「形似而神不同」。
价值千亿天才创意的背后,是对「泛化」这件事长年累月的深刻思考:玩家与系统如何进行交互,才符合移动平台数以亿计泛用户群体的能力?媒介决定体验,键鼠、手柄、摇杆或者触屏,需要的3C方案是截然不同的。触屏最适合的操作是滑动,是拖拽,而在精确点击上非常困难。所以「滑动拖拽为主的ACT方案」让王者拥有了远比同类产品更爽快顺畅的操作体验,也成为MOBA在移动端3C「泛化」的最优解。
而即使是王者团队对「泛化」有如此深厚的思考沉淀,在海外也没有取得预期的成功。因为不同地区的通信基础设施、玩家能力有极大差异,所需要的「泛化」解法也截然不同。MLBB通过进一步简化玩法、缩短TTK增强刺激反馈,降低画质换取设备适配性,探索出一套更能满足当地用户需求的解法——如果把视野扩大到全球化的市场,「泛化」永远有着极其广阔的空间。
一个非常显著的趋势是,未来的「泛化」越来越不简单等同于「大众化」,而是往更垂类的方向演进。MOBA其实是个在涌现阶段就经历过充分竞争的狭窄特例,大部分新出现的玩法原型,都具有远比MOBA更广阔的扩展空间。
「泛化」可以来自于差异化的体验塑造。射击的内核足够稳固简单,配套不同规则的加持可以产生极其多样化的细分体验。所以Battle Royale的战争并没有被PUBG终结,卡通夸张的Fortnite、重塑战斗体验的Apex、低端崛起的Free Fire,乃至COD Warzone模式,都凭借各具特色的差异化体验占据一席之地,共同拓展了玩法范式的边界。
「泛化」也可以由IP驱动。IP是情感和记忆的映射,一可降低CPA,二可前置锚定玩家认知、创造需求。卡牌/SLG这些品类结合IP已是非常成熟的打法。自走棋的玩法原型结合LOL和暴雪IP后,都获得了比原版自走棋更大的商业成功,一位制作人曾跟我笑谈,所有顶级IP都值得做一款自走棋。
当生成式AI带来游戏制作能力的民主化,游戏的供给将极大丰富,优秀的玩法规则一定会以前所未有的速度涌现。当原型不再稀缺,「泛化」将成为真正稀缺的能力。
「泛化」并不是巨头专属的机会——空前丰富的供给必然稀释用户有限的注意力,达到MOBA和Battle Royale量级的共识性玩法突破会越来越稀缺,更多的成功将来自于糖豆人->蛋仔派对这样的非共识,敏锐捕捉到更微小、更早期的垂类信号非常关键。越垂类,就越需要对其文化和体验内核有足够深的理解,需要更强烈的个人风格,更坚定的项目把控。
未来的「泛化」比拼的不止是渠道能力,而是更能容忍失败的授权与激励机制、对用户真实需求的理解、对某个具体体验塑造的信念,以及,下注的勇气和决心。
3)奇迹具现:十亿人的虚拟世界
在新体验层面,AI NPC可能是行业里讨论最多的。BabyAGI和AutoGPT这类能调度LLM和其他工具、自主分解并执行任务的autonomous agents是当下AI前沿最热门的研究方向,让很多游戏人兴奋的斯坦福AI版《模拟人生》,也正是使用类似的生成式agent来模拟人类行为。
Generative Agents: Interactive Simulacra of Human Behavior
但是,传统定义里的游戏,和AI的体验融合之路注定不会太顺畅。
生成式AI底层原理是基于统计概率的,输出不可避免的具有很强随机性。而传统游戏的乐趣,恰恰来自于简化、有限边界、可预期,也就是《Rules of Play》一书中强调的Meaningful Play。怪猎、只狼和WOW这类游戏里最核心的Boss战,Boss智能逻辑是设计师在行为树中精心编排的,玩家初见-死亡-观察,读懂Boss行为规律、找到设计师预设的对策、不断尝试提高熟练度,直至成功击杀获得反馈,这一整套心流乐趣都建立在清晰可预期的Boss行为逻辑上。想象一下Boss的行为由机器学习生成,走位放技能完全不可预期,玩家不知道每个选择的后果——那会是一场灾难。
现实生活并不如游戏有趣。因为现实世界本质就是随机混沌的,因果链过于复杂,黑天鹅无处不在。
星穹铁道上线前,制作人David与《女神异闻录》制作人桥野桂进行了一次对谈。这也是非常罕见的顶级制作人间公开讨论AI的资料。
桥野:《女神异闻录5》的话,我们一开始就确立了剧情的核心思想——“年轻人向成年人打造的社会敲下制裁之锤。复仇。让人刮目相看”。就我个人来说,无论是打造怎样的舞台还是创作怎样的故事,最后都希望在玩家心中留下点什么。
桥野:也就是说无论制作什么内容,总之先把要求输入进AI工具,然后在AI生成内容的基础上进行人工调整——如此这般的制作手法已经具备实操性了呀。今后必须人工操作的数据说不定会越来越少,效率也会越来越高吧。
只是我觉得,作为制作方,我们不能因为便利性的发展而忘却某些会“失去”的东西。举例来说,为了构建《女神异闻录3》之后的角色间的人际关系——体现在游戏中就是“Commu”“copp”系统——研发上述系统之初,我们完全没预料到该系统会如此受到玩家喜爱。
所以我觉得,尽管利用蓬勃发展的AI技术以及现代社会的便利性十分重要,同时也不能忘记娱乐产品应该给活在现实世界的人们带来怎样的幸福。
大卫:《崩坏:星穹铁道》已经为“三月七”准备了差不多6万字的文案……即便如此,能够展现的场景还是很有限。举例来说,玩家在游玩的过程中可能会不断涌现出“想和三月七去咖啡厅,聊聊她的过去”“想一起去游乐场转换心情”之类的想法……但仅凭人力资源,很难顾及全部事件。这时如果将已有的6万字文案输入AI工具之中……那么增加三月七的角色事件数量也并非不可能。
桥野:真要这样的话,每次和她对话都会相当辛苦吧(笑)。
桥野先生对AI生成NPC台词的态度,是相当微妙的。虽然在对谈中表达的很含蓄,但明显能感受到老派游戏人对体验塑造的谨慎保守。简单归纳下桥野先生的观点就是:游戏必须有一个独特的创作核心,任何内容都应该紧密围绕这个特定的核心展开,而人工制作的内容最能确保这一点。
这种理念当然令人钦佩。但从另一个方面看,桥野先生的认知更多是建立在传统主机游戏的商业模式之上:对要求「特定结果」结果的传统游戏,AI带来的随机概率性体验,确实未必有很大价值。
——虽然已经在往GaaS化发展,但买断仍然是传统console最主要的收入来源。对于卖copy的商业模式,最重要的是有一个明确的核心体验吸引玩家购买、培养稳定的系列用户群体,而不是用无限内容拉长玩家在游戏内的留存时间。像《双人成行》的Josef Fares这样更激进的买断制制作人,甚至公开表示:游戏行业是有集体焦虑症么?我认为现在的单机游戏时间实在太长了。重复可玩性是个什么鬼?玩家想要重复玩游戏这件事本身就很奇怪。
但是,时代的车轮不会停下。沿着主机-PC-移动这条主线,游戏人群得到极大扩展,游戏的体验边界也不断拓宽。如果穿越到20年前告诉当时最杰出的游戏开发者,未来每天会有超过1亿人在一款游戏里在线竞技,会有游戏在推出十几年后依然有繁荣稳定的交易市场,他恐怕会目瞪口呆。可重复体验上万把的竞技单局、国内开创的所谓平台期玩法、gacha的资源售卖方式...这些都不符合原教旨主义者对游戏的定义,但正是这些新要素和新体验,极大提升了单款游戏的生命周期和收入上限。传统console的GaaS化转型步伐迟缓,某种程度上正是被其体验和商业模式束缚的——收入水平并不能支撑频繁的内容更新(尤其是有明确创作核心的内容),无法进入长线运营的正向循环。
历史总是押韵。任何一种内容形态,都是通过不断拓宽体验边界来扩大渗透率的。
古代,书和乐是士大夫阶层才能修习的六艺,在中世纪欧洲,文学和音乐同样也由教会和宫廷把持。工业革命印刷技术普及后,廉价的通俗小说(尤其是犯罪和冒险题材)成为文学里最大的类别,欧美传统文学作家们激烈批判通俗小说是「对文学的亵渎和破坏」。相似的,电影界人士说短视频是低俗无趣的文化垃圾,流行音乐也曾经被污名化为靡靡之音。但最终我们看到,在文学、音乐和视频的体验边界大幅拓宽后,生产和消费两端都呈现出前所未有的繁荣。
TME2021年数字音乐白皮书
由创作者精心设计编排内容的传统游戏当然还会一直存在,也会一直活得很好。但《崩坏:星穹铁道》和《女神异闻录5》两位制作人对谈里对AI态度的微妙差异,或许预示着:一种与传统游戏设计理念截然不同的新类型即将出现——无边界的虚拟世界,在算力的轰鸣和AI的概率波动下,无穷无尽不可预知的对话、行为和故事涌现,无限的内容和元素在规则框架内悄然流动、自由碰撞,无论是惊涛巨浪和涓涓细流...都在恒常乐土中奔涌不息。
在AI自由构建的不确定世界里,一切都充满未知与变数。这种新感觉在传统游戏中是前所未有的。享受这种感觉的,很大概率不是习惯了传统游戏Meaningful Play乐趣的玩家,而是全新的「AI原生」世代——如同移动端吸引了大批未曾接触过PC游戏的新玩家那样。
在上一篇文章里,我们谈到游戏行业有最优秀的人才、有创造需求的神奇能力,顶级游戏公司更有把全人类迁移到线上世界的野望。但是,更大比例的线上人口、在线时长和流水利润,仍然被互联网平台牢牢掌控着。强如王者荣耀,DAU也不到微信的1/10、抖音的1/7。抛开形式看本质,兼具通讯、内容、交易、办公等等功能的微信,才更像是事实上「十亿人生活其中的虚拟世界」。而游戏公司至少到目前为止,还没有一家能超越游戏的边界。
互联网行业能有如此之大的规模,当然是有其根本能力的。人们日渐稀缺的注意力时长,必须用内容来交换。所有内容都需要先被生成,再被分发找到它的受众,互联网平台重新定义了分发,让一切媒介形态的信息都成为个体可消费的内容——不只是图文和视频,通讯信息本身就是最大量级的内容。而对于游戏行业,再强的单局玩法、再精妙的平台期设计,玩家也终有对同质化体验腻味的一天,即使是工业化天花板《原神》,42天一个版本已是极限。即使项目组几百号人不舍昼夜地创作内容,要跟有几亿用户生产无限内容的互联网平台正面竞争用户规模和时长,也如同水中幻愿。
互联网重构了分发,那么,如果AI能重构生成呢?
当下头部游戏大几百人的团队已经逼近项目管理的规模极限,内容生产注定是熵增的过程。即使不考虑成本,协作的复杂性和管理难题,也使得单个游戏项目的团队规模不能无限扩张。换而言之,工具链和协作流程再完善,传统开发模式下单款游戏的内容产能是有上限的。线性提升的生产力,无法真正许以十亿人浮世一梦。
现在,生成式AI带来了奇迹具现的一丝曙光,创作者们第一次触碰到「无限内容」的可能性——正如苍崎青子所说,魔法是按常理无论投入多少时间和资源都无法实现、无人能够模仿的奇迹。
巨大的变革和替代机会正在出现。互联网平台依靠用户提供的无限内容,占据了巨大线上人口和在线时长。当AI重新定义内容生成,未来掌管这些的还继续会是互联网人吗?
Metaverse这个概念现在讲起来多少有些神棍,但人类线上沉浸度的提升已是无可争议的趋势。文字-图片-视频-3D,人们永远渴求更实时、信息量更大、更身临其境的内容。当AI重新定义内容生成和体验之时,注意力的无尽战争中,游戏和互联网的边界将越来越模糊,我们注定生活在真实与虚幻、确定与概率边界交织的世界。
「在隐秘的梦中,沙王只身一人静静睡着,描绘新的定理。
在王的梦想中,谁也不必饮下一滴苦水。新世界中一切都是善的。」
| 参考资料
[1] aigeneration.substack.com
[2] blog.eladgil.com
[3] digitalnative.substack.com
[4] moreentropy.com
[5] nathanbenaich.substack.com
[6] simonwillison.net
[7] gaming, social, and new media Archives | a16z.com
[8] Does One Large Model Rule Them All?, Maithra Raghu
[9]Semiconductor design and manufacturing:Achieving leading-edge capabilities, McKinsey
[10] 海外独角兽公众号
[11] ChatGPT和聪明地设计 Infra,Suits and Hoodies
[12] 万字长文,探讨关于ChatGPT的五个最核心问题,M小姐研习录
[13] RPG的未来是AI NPC吗?看《女神异闻录》与《崩坏:星穹铁道》的答案,游研社
五源寻找、支持、激励孤独的创业者,为其提供从精神到所有经营运作的支持。我们相信,如果别人眼中疯狂的你,开始被相信,世界将会别开生面。
BEIJING·SHANGHAI·SHENZHEN·HONGKONG
WWW.5YCAP.COM
继续阅读
阅读原文