出品:拾象投研团队
排版:Scout
未来 5-10 年最重要趋势是什么?ChatGPT 的诞生为这个问题带来了答案,也对未来数字生态带来明确信号:AI 一定是未来技术创新和商业模式变革的核心。
拾象团队在过去一年中积极追踪着全球一线大模型公司、顶尖 AI research labs 的动态,也持续开源精神将我们关于 AI 的前沿认知开放:2023 年,海外独角兽共发布了 75 篇关于 AI 深度内容,其中既有对 OpenAIAnthropicCharacter.aiPerplexity 等头部模型公司、超级应用的深度研究,也有和 PikaVideoPoet 等明星项目核心成员的对谈,为了理解模型到底能做什么、AI-native 应用到底长什么样,我们在 2023 年还尝试探索了LLM 应用
2023 年是 AI 跳变式发展一年:
  • ChatGPT 成为史上最快突破 1 亿用户的超级应用;
  • Perplexity 用“问答引擎”撬开了 Google 在内容搜索上的强势;
  • GPT-4 的发布定义了 LLM 军备竞赛的决赛门槛是什么;
  • RunwayPika 以及以及 VideoPoet 为模型带来更多形态智能能力;
  • Llama 2 和 Mistral-7B是开源势力带给社区的惊喜;
  • ……
关于 LLM 在 2024 年会如何变化,没有人拥有标准答案,唯一可以肯定的是,“新摩尔定律”是不变的:每 1-2 年模型水平就能提升一到两代,模型训练成本每 18个月就会降低至原来的1/4、推理成本每18个月降低至是原来的 1/10。
我们相信,“新摩尔定律时代”才刚刚开始,随着模型智能能力的进化和算力成本的持续优化,2024 年一定还会有更多惊喜涌现
Prediction 1
2024 年上半年是 LLM 军备竞赛关键赛点,格局形成后很难再改变
如果以 GPT-4 作为门槛,首轮模型竞赛已经决出了前三名:OpenAI 、Anthropic 和 Google Gemini,接下来半年谁还能推出等齐 GPT-4 能力模型值得期待,我们认为还有另外 3 家公司具备这个潜力:Character.AI、X.ai 和 Bytedance。

虽然 Llama 2 和 Mistral-7B 极大地增强了社区对于开源模型的信心,但开源模型要在 2024 年内追到 GPT-4 还面临着很多挑战。我们推测,头部开源模型的能力会长期保持着与最好模型半代到一代的差距,但同时,也需要强调的是,开源模型的使命并不是最智能的模型,而是帮助模型能力 commoditize,在成熟的 use case 上让企业能够大规模地自定义使用。
• 明年上半年是大模型最后的决赛窗口:
我们预计,Anthropic 会在 2024 Q1 发布 Claude-3,OpenAI 会发布 GPT-4.5,2024 年 Q2 ,Google 也可能准备好了 Gemini 2.0 ,这也意味着在 2024 年上半年,模型平均能力又会被抬升一个台阶。因此,虽然今天我们说“追赶上 GPT-4 是第一梯队”,但如果到明年 6 月后再推出等齐 GPT-4 能力的模型就已经无法进入第一梯队了。模型竞赛相当残酷,类似芯片或 SpaceX,因为领先的模型能力又强又便宜,后面的玩家会很难存活,但因“阵营”抗衡又不会赢家通吃,最后格局很可能只剩 2-3 家。
• 模型公司的融资和估值几乎全由科技巨头定价和主导,没有大腿很难存活:
模型公司更像 Research lab,模型的商业模式还不清晰。因此估值体系也很模糊,ChatGPT 的爆红是超出预期的,是有一定必然性的偶然,很难从产品的用户增长视角去进行分析,大模型公司独立 IPO 也很难,被收购的概率是更高的。
Microsoft --> OpenAI
Amazon/Google/Salesforce --> Anthropic
Tesla --> xAI
Google --> Character.AI
NVidia/Microsoft --> Inflection
• Scaling Law 是目前提升模型智能能力的唯一路径:
在 Scaling Law 下,每一代模型扩大 n 倍的参数量,m 倍的数据量,近似 m * n 数倍的实验训练资源。但 scaling law 本身还没有一个理论支撑,而是大量实验和试错的经验总结带来的 conviction,因此也很难准确判断下一代模型能力涌现如何、什么时候 Scaling Law 就不奏效了。就像人类对大脑的理解也很有限,更像是“探索发现”而非“发明创造”。

• Post-training pipeline 是 OpenAI 最关键的 secret sauce:
优秀的互联网公司往往都有着优秀的 Infra,是他们想要实现扎实的 pre-training Infra 是一个相对明确的工程问题。但要追上 OpenAI 最大的难度在于他们是否能有成熟的 post-training pipeline 去最高效地 align LLM 激发出底座模型的能力,是用 RL 还是 DPO?如何获得最优质的 RLHF 数据?等等这些问题都是每家公司在实践的。
• 推理能力仍是目前 LLM 持续进步和落地的核心,产品是支线:
Model capability 只有一个北极星:即推理能力。对产品应用最重要的依次是成本、可靠性、多模态,随着以上问题渐渐解决,AI-native 产品才更有可能落地,虽然 ChatGPT、Character.AI 是现象级的 AI-native 应用,但考虑到这些团队仍旧是以 foundation model 研究为核心,团队接下来的重心不一定在产品和应用角度的突破上,所以产品侧一定是创业团队的机会。
Prediction 2
数据短缺问题成为模型 bottleneck,合成数据是关键解法
2024 年很多模型会在数据环节遭遇瓶颈。

Transformer 结构对各类任务都有着很高的包容度,从文字、图片到蛋白质结构。但它有一个关键问题:对数据量的要求大,只有 data-intensive 的任务才能得到充分的学习。假如每代模型参数扩大一倍,相对应地,data 也需要近似线性扩大一倍来保持 Chinchilla Optimal,但公开数据不够用已经成为共识,如何提升 Synthetic Data 多样性和质量是确保模型训练中很关键。
我们倾向于认为,Scaling Law 大概率不会停滞,即便出现问题也更可能是计算架构的原因。举个例子,如果我们用 LSTM 或 RNN,那么模型能力的进化速度就会发生变化。如果在各种架构情况下我们都遇到了模型能力进化的瓶颈,那这件事将相当严重,因为这意味着我们遇到了更深层次的问题。
数据合成的实现方法目前还是一个开放问题。因为简单的用 GPT-4 生成数据会带有模型自身的缺陷,AI 学习的只是自己本身掌握的知识。因此目前有两条可能可行的技术路线,一类是用数学/代码可以进行严格验证的形式语言,让模型生成的数据能够得到自动化地验证,并不断变得更准确;另一类是通过 RL 强化学习算法,可以 self-play 反复试错学习的方法,通过 AI feedback 为主 human feedback 为辅的方式进行纠偏和迭代。在这件事上 OpenAI 和 Anthropic 走在了前沿,但距离做到接近无限的数据生成还很远。
Dwarkesh Patel:是否存在一种可能,即模型能力追上人类智能水平之前,可用来训练的数据就已经被用完了?
Dario Amodei我觉得这里需要区分这是理论层面的问题还是实际实操中的情况。从理论角度来看,我们距离数据不够这件事并不远,但我个人倾向于这种情况并不太可能发生。我们可以通过很多方式来生成数据,所以数据并不会成为一个真正的障碍。还有另一种情况是,我们用光了所有可用的计算资源,从而导致模型能力进步缓慢。这两种情况都有可能。
Prediction 3
2024 年会迎来端侧  LLM hype,会有开源模型团队被硬件厂商收购
端侧小模型已经可以实现很多初阶任务,例如 text completion、 text summarization 等,这些任务对智能能力的要求没那么高,却能满足很多日常的需求。从模型竞争角度,来自大模型的“向下覆盖”是小模型最大的挑战,比如 OpenAI 顺手 train 小尺寸模型只是时间和优先级问题,但小模型真正的价值在于端侧。

ChatGPT、Character.AI 等超级应用唤醒了大众对于智能的渴望,但目前这些智能功能的调用入口十分单一,和手机、PC、智能手表等已经被大规模普及的智能硬件之间的融合还不流畅,AI Pin 之所以受到市场期待也在于它提出的“随时调用最强模型”概念,但我们认为,在所谓“AI-native 硬件”诞生之前,把 LLM 和现有终端融合更具有落地可能性,不过这里的现实挑战是,如果直接将大模型嵌入到硬件中,从芯片、成本以及数据隐私安全角度都存在挑战,而这恰好是端侧小模型的优势。
今年年底 Google 推出的 Gemini 系列模型中的 Nano 就是围绕 on-device 需求设计的,Gemini Nano 除了会被嵌入 Pixel 8 Pro  外,也开放给 Android 开发者,开发者可以以 AICore 的形式,在手机系统中调用 Gemini 的能力,用在自己的 App 中尝试 AI 功能。
我们预计 2024 年会迎来端侧小模型的 hype,手机、PC、车甚至车等硬件厂商都有极大动力收购开源小模型,这其中以手机厂商最为激进。
首先,LLM 是不断拉长的换机周期带来新变量,通过观察 2023 年国内手机厂商在新品宣传上的侧重点已经能够部分验证这一点。此外,我们预计在 2024 年手机内存容量也会迎来骤升,为端侧小模型的落地提供基础前提。Intel 和高通新一代笔记本 CPU 正初步尝试类 Apple Silicon 的架构,不仅将内存和处理单元进行一体化封装,还加入了性能强劲的 NPU(神经网络处理单元),预计 Mac 将面临愈发激烈的桌面 PC 端竞争。
Prediction 4
多模态成为 LLM 在 2024 年的
主流叙事
OpenAI 发布的 GPT-4V 相比 GPT-4 加上了图像和语音的输入能力,已经拥有多模态理解能力,Google 在 2023 年 12 月推出的  Gemini 也拥有多模态理解能力,并且是从头开始训的,Anthropic 预计在 2024 Q1 发布的 Claude 3 也将会是一个多模态模型。短期内,图片、视频、3D、音频等多模态的生成和理解是两条赛道,站在终局视角,随着智能能力的提升,理解和生成能力一定是一体的,单一模态模型更像是一种中间过渡态。
• 图像生成:今天的文生图效果和质量和一年前相比提升相当明显,但从 prompt following 角度还有很长的进化空间,这项能力也意味着模型在未来是否能真正理解并完成一些多模态任务。
• 视频生成:视频生成当前可能处于 GPT-2 时期,核心玩家仍在技术路线上进行探索,已初步发现 scaling law 迹象,但暂时没有团队有很强的 conviction 坚定选择一条路线或一个方向进行大规模投入。因此行业当前仍非常依赖顶级研究团队。
• 3D生成:可能是距离技术临界点更远的一条赛道,目前 3D 生成的主流技术路径大致可以分为(1) text-to-2D,再通过 NeRF 或 Diffusion 模型完成 2D-to-3D,或直接通过 2D 素材完成 3D 建模;以及(2)直接 text-to-3D,该路径直接使用 3D 数据进行训练,从训练到微调到推理都基于 3D 数据。其中,路径(1)更为常见,因为相比于 3D 数据,2D 数据更多、更丰富,可生成的 3D 内容也更丰富多样。但我们看到越来越多研究员正在由路径(1)转向路径(2),路径(2)有可能成为 3D 生成未来最重要的方向。
Prediction 5
视频生成会在 2024 年迎来
“ChatGPT 时刻”
2023 年下半年,Pika1.0 、Stable Difussion Video、Google VideoPoet 的相继诞生让视频生成的竞赛氛围变得紧张,2024 年,视频生成领域已经会经历图像生成在 2023 年的过程,可能最快到今年年底,我们能够接近视频生成领域的“ChatGPT 时刻”。

当前视频生成技术路线大致可以分为两类:一类是基于扩散模型(Diffusion-based),一类基于语言模型(Language Model-based)。目前,大部分研究员都在 Diffusion 领域进行探索,这个技术路线占据绝对的主导地位。但 Transformer-based 的路线更容易扩展,两条技术路线的研究工作之间的界限正在变得越来越模糊。
我们预计明年将有更多玩家加入视频生成领域的竞争,不仅仅是单纯聚焦视频领域的玩家,还包括此前从其他模态起步的公司,如 LLM、文生图、文生 3D 等玩家,竞争将非常激烈。大规模的人才和资源投入也有望将视频生成赛道尽快推向 “ChatGPT 时刻”。
Prediction 6
新摩尔定律会解锁更多新应用的可能性,LLM-Native App 会在未来 6-12 个月迎来大规模爆发
2023 年初整个市场就在期待“未来 6-12 个月”应用会大爆发,但实际情况是每 6 个月过去,大家仍然在重复这一预测,将时间点不断后移 ,背后重要的原因仍是新摩尔定律,一方面模型的能力和成本还需要继续提升,另一方面 LLM 时代的产品经理们还需要让自己能够跟不断进步的底层模型搭档好。投资人很可能也需要有这么个预期:今天看起来 Native 的产品很可能 6 个月之后就不再是了。

也正因为新摩尔定律的存在:模型训练成本每 18 个月除以 4,模型推理成本每 18 个月除以 10,模型能力每 1-2 年提升一代,过程中会逐步解锁新应用。我们目前能看到的应用机会都是 Known-Unkown,而 24 年将会出现许多我们今天无法设想的 Unkown-Unkown。
• LLM 产品的数据飞轮和网络效应能否成真将揭晓:
我们目前的感受是 ChatGPT 并没有像搜索和推荐一样具备很强的数据飞轮效应。如果 Meta/Tiktok/Google 甚至创业公司在产品侧突破,更高效率的数据飞轮,是有机会拿走更大胜利果实的。如果没有玩家能做出来,那 ChatGPT 还将维持自己的统治地位。
• 新时代产品天才画像会更加清晰:
移动时代做过亿级 DAU 产品的产品经理可能并不会自动变成 LLM 时代的好产品经理。我们在今年看到过一些“大胆”的产品用人 - Harvey 的 CPO Gordon Moodie 是在 Wachtell 律所做了将近 20 年的律师,职业生涯此前还没在科技公司工作过。用 LLM 做场景和行业改造,谁能做好?24 年我们会看到一些初步答案。
• “改良版 Character.ai”玩家将收敛:
2023 年市场上有差不多几百家公司都想做 Character AI 方向,但目前进展都很一般,原因是什么?大家严重低估了 Character.AI 模型的能力,绝大多数 copycat 的参数量和优化能力比 Character 相差一个数量级。甚至连 Character.ai 是不是个好故事都不一定。Character CEO Noam 今年用产品故事融资,被硅谷投资人挑战这个产品看不清未来空间多大,现在 Noam 又转回了大模型走向 AGI 的 story,但走 AGI 这条路前面竞争又很激烈,如果你是 Noam 你会怎么选?这个战场里的中庸玩家会很煎熬,可能两条路都走不通。
Prediction 7
2024 年,亿级 ARR 产品将批量出现,更多公司 5% 以上的收入贡献将来自 AI 
在 23 年,我们看到 LLM-Native App 在一些具体的场景和垂直行业已经冒头,Harvey、Captions、HeyGen、Notion AI 等新产品都能取得千万美元级的 ARR,算是逐步验证了 LLM 的行业改造的逻辑,2024 年非常值得期待的是这些已经拥有 LLM-PMF 的产品可以批量晋升到亿级 ARR,PLG 之后,它们的收入增长过程可能为业界带来新的 Go-To-Market 最佳实践。

AI 也为 Big-Techs 带来了积极收益:AI 占 Azure 的收入已经超过 2%,Datadog  有 2.5% 的 ARR 来自 GenAI 客户……我们预测,随着 2024 年模型能力的提升以及更多 AI-naive 产品/ feature 发布,到 2024 年这一比例还会继续上升,将有更多公司将有 5% 以上的 ARR 来自 AI 相关的新功能、新产品和客户。
Prediction 8
2024 是布局 Data Center 的重要时机,算力、Cooling 以及互联等环节均存在机遇
Scaling law 的影响同样体现在硬件端,2024 年模型的卡点在数据,到 2025 年 bottleneck 则在于 Power,因此,2024 年是布局硬件的最佳时机。

• 硬件侧竞争加剧:
明年 NVIDIA 将在推理侧重点宣传 Grace 架构的吞吐量优势,也就是产品定位重心更向高端市场走,旨在缓解下一代模型超大参数量和 MoE 带来的高延迟问题。这是为了应对来自云计算厂商自研芯片和 AMD 的竞争,因为相比较而言,H100/H200 在推理场景下性价比一般。高端推理市场里,AMD 是 NVIDIA 的唯一对手,初创公司里只有 Tenstorrent 有类似的技术规划,但不能形成有效竞争。为了有效争夺市场份额,NVIDIA GPU 和 Google TPU 还会压缩旗舰芯片的迭代周期,从 2 年缩短为 1 年。
• 电源短缺问题加剧:
这一问题主要由 NV 的新产品功率提升和 GPU 市场份额增长引起,进而导致数据中心整体的变压器面临更新换代压力。NV 计划于 2025 年推出的 X100 GPU 将功率从 700W 提升至 1000W。同时,同期发布的 CX8 和 Quantum3 也预计将需要更高的功率,这是因为它们尚未采用 CPO 技术。鉴于 GPU 在数据中心的市场份额正迅速增长,大规模的技术更新换代将对原本主要满足 CPU 需求的电源供应链构成挑战,从而导致电源短缺。
• Networking 创新:
首先,博通和 NVIDIA Mellanox 正将 CPO 整合到其旗舰 Switch 上,博通的旗舰机型将在 24 年大规模铺开,凭借 CPO 缩小 RoCE 和 Infiniband 的延迟性能差距,并在速率和能耗表现上领先 NV 1-2 年。此外,架构将从 Fat-tree 逐步转向 Dragonfly。我们将会在 2024 年看到一些小集群的尝试,但大范围的变更还需要更久的实验。Fat-Tree 架构最大能支持 15 万张 GPU 互联,足以支撑 GPT-5 甚至 GPT-6 的训练,但如果需要进一步 Scaling,则需要探索 Dragonfly 和 Torus 架构,目前谷歌已在 Torus 架构上有两代 TPU 的积累,NVIDIA 则在探索 Dragonfly。
Prediction 9
围绕 LLM 将发生一起具有影响力的
网络安全事故
尽管大家都在强调 AI Safety,但是基础的围绕 LLM 的网络安全还有很大的补足空间。微软一直强调自己云平台的安全性,但是在 23 年也出了几起大的数据泄露事故:
Azure 在 7 月泄露了知名用户的数十个 Azure 和 Exchange 账户,原因是一名工程师的账户被黑客攻击渗透。后面 Wiz Research 又发现 Microsoft 的 AI GitHub 库里有意外数据泄露,错误配置了 SAS 令牌导致泄露了 38TB 私人文件和 30000 多条内部 Teams 消息。
Log4j 事件是云安全的终极元年,鉴于 GenAI 的一切都发生地更快,24 年可能就将出现同等影响力的安全事故。

Prediction 10
具身智能还需 1-2 年才能真正迎来突破
和 LLM 一起到来的是机器人领域关于 Embodied AI(具身智能)的预期:
• 2023 年 3 月 Google 发布视觉-语言模型 PaLM-E 之后受到广泛关注;
• 2023 年 7 月 Google 发布视觉-语言-动作模型 RT-2 后关注度达到高点;
• Tesla 也分别在 2023 年 5 月、9 月、12 月发布其人形机器人 Optimus 的最新进展。
无论在软件层面还是硬件层面,大家都看到了通用人形机器人的可能性,也期待 AGI 在机器人领域的突破,但客观现实是,因为涉及到软硬件一体,通用机器人是比 LLM 更复杂的系统性工程,真正实现需要更多耐心,在年末,我们也明显感受到市场对于 Embodied AI 逐步恢复冷静。
2024 年还会有更多的 AI researcher 转向 Embodied AI 领域的研究,操控(Manipulation) 会是阶段性的研究重点,更具体来说,双臂和灵巧手会成为未来 1-2 年很重要的研究方向,而该领域一定也会因为研究力量的涌入在技术层面上带来新的突破。不过,仍旧需要强调的是,从实验室到工业界是通用机器人在 AI 能力突破之外更大的挑战,硬件实现、成本、以及通过大规模生产到真正普及应用等环节都是比算法软件环节更大的挑战。
🦄️ 互 动 福 利
关于2024、关于 AI 还有哪些值得关注?我们很好奇大家对未来的预测与想象,也想听到你们关于「海外独角兽」 2024 的期待。欢迎在评论区与我们互动、留下声音。
截至本周日晚点赞最多的 5 条,我们将送出海外独角兽年度精选集一份。
延伸阅读
专访VideoPoet作者:LLM能带来真正的视觉智能
跨年对谈:千亿美金豪赌开启AI新摩尔时代
Speak:用LLM重塑语言学习,再造一个Duolingo?
Mistral AI:开源不是威胁,模型变小才能催生Agents
LLM-first IDE:Code Agents 超级入口,软件开发的“Excel 时刻”
🦄️  
继续阅读
阅读原文