2023，AI的行与不行

人工智能会成为世界上最好的新科学家吗？

来源| State of Report

编辑 | Moon

人工智能模型正加速着科学发展的步伐，它被用于帮助氢融合、提高基质操作的效率及生产新抗体，甚至人工智能开始构建更好的人工智能……

但人工智能会成为世界上最好的新科学家吗？这一问题耐人寻味。

前不久，stateof.ai 出品了《2023 年度人工智能报告》（《State of Report》），深度地解读了人工智能在科研进展、产业界发展、政治影响、AI 安全等众多领域的发展情况，并得出以下结论：

1.研究进展

GPT-4 登场，展示了专有技术与次优开源替代方案之间的能力鸿沟，同时也验证了通过人类反馈进行强化学习的威力；
在 LLaMa-1/2 的支持下，越来越多的人试图用更小的模型、更好的数据集、更长的上下文来克隆或击败专有模型；
目前还不清楚人类生成的数据能维持人工智能扩展趋势多久（有人估计，到 2025 年，数据将被 LLM 耗尽），也不清楚添加合成数据会产生什么影响。企业中的视频和数据可能是下一个目标；
LLM 和扩散模型通过为分子生物学和药物发现带来新的突破，继续为生命科学界提供助力；
多模态成为新的前沿，各种智能体热度大大增加。

2.行业局势

英伟达凭借各国、初创公司、大型科技公司和研究人员对其 GPU 的巨大需求，跻身市值万亿美元俱乐部；
主要芯片供应商开发了不受出口管制影响的替代产品；
在 ChatGPT 的带领下，GenAI 的应用程序在图像、视频、编码、语音或 CoPilots 等领域取得了突破性的进展，带动了 180 亿美元的风险投资和企业投资。

3.现有政策

世界已划分出明确的监管阵营，但全球治理的进展仍较为缓慢，最大的人工智能实验室正在填补这一空白；
据预测，人工智能将影响一系列敏感领域，包括选举和就业，但我们还没有看到显著的影响。

4.安全问题

关于生存风险的讨论首次进入主流，并明显加剧；
许多高性能的模型很容易「越狱」，为了解决 RLHF 的挑战，研究人员正在探索替代方案，例如自对齐（self-alignment）和带有人类偏好的预训练；
随着模型性能的提升，一致地评估 SOTA 模型变得越来越困难。

GPT-4全球最强，但进步太慢

迄今为止，OpenAI的 GPT-4 仍是全球最强大的大型语言模型，成功击败了所有其他LLM———无论是在经典的AI基准测试上，还是在为人类设计的考试上。

OpenAI 对 GPT-4 进行了全面评估，不仅针对经典的自然语言处理基准进行了测试，还进行了一些旨在评估人类能力的考试（例如律师资格考试、GRE、Leetcode 等）。
GPT-4 在各项任务上表现最佳。它解决了一些 GPT-3.5 无法解决的任务，例如统一律师资格考试，GPT-4 的得分为 90%，而 GPT-3.5 只有 10%。在大多数任务上，添加了视觉组件对性能的影响较小，但在其他任务上有很大的帮助。
OpenAI 的报告指出，尽管 GPT-4 仍然存在虚构现象，但在对抗性真实性数据集（旨在欺骗 AI 模型）上，其事实正确性要比之前最好的 ChatGPT 模型提高了 40%。

不过大模型厂商越来越趋于技术封闭。

在OpenAI 公布的 GPT-4 技术报告中，可参考的内容非常有限，几乎没有发布什么有价值的信息，Google的 PaLM 2 技术报告亦是如此，而 Anthropic 直接选择不发布 Claude 和 Claude 2 的技术报告。

好在有 Meta 高举开源AI的旗帜，先后发布开源大模型 Llama、Llama2，选择向公众开放模型权重等技术细节，掀起了一场开放竞争的大语言模型竞赛，并形成了开源与专有大模型之间的抗衡。

尤其是 Llama2 可以直接商用，2023 年 9 月，下载量达到了 3200 万。

从模型流行度来看，ChatGPT 在推特上被提及的次数最多，为 5430 次。

其次是 GPT-4 和 LLaMA。

虽然专有闭源模型最受关注，但人们对开源且允许商业用途的 LLM 的兴趣在增加。

从Hugging Face的排行榜来看，开源比以往任何时候都更加活跃，下载量和模型提交量飙升至历史新高。

LLM爆发，小模型崛起

2023 年 2 月，Meta 发布了一系列名为 LLaMa 的模型。

在发布时，它们因为是仅基于公开可用数据集进行训练的最强大的模型而脱颖而出。

Meta 最初只向研究人员提供按需访问 LLaMa 模型权重的权限，但这些权重很快被泄露并在网络上发布。

在 Meta 发布 LLaMa-1 之后，其他机构也加入了发布相对较大语言模型权重的行列。

其中有几个引人注目，如 MosaicML 的 MPT-30B，TII UAE 的 Falcon-40B，Together 的 RedPajama或 Eleuther 的 Pythia。

与此同时，开源社区还在对 LLaMa 的最小版本进行特定数据集的微调，并将其应用于数十个下游应用程序。Mistral AI 的 7B 模型也最近成为最强的小型模型。

除了LLM，包括微软在内的研究人员一直在探索小规模语言模型的可能性。

基于 Llama 和 Llama2，业界不断努力通过开发更小的模型、更好的数据集和更长的上下文来实现媲美或超越专有模型的性能。

有研究发现：使用高度专业化的数据集训练的小型语言模型，性能可以与大50倍的模型相媲美。

英伟达GPU市场称王

生成式AI高速发展的同时带动了AI硬件行业的高歌猛进，GPU的巨大需求量，让英伟达成了目前赚钱最多的AI公司，使之跻身「一万亿市值」俱乐部。

英伟达 A100、H100 GPU 集群的数量不断增加，其芯片使用量是 AI 研究论文中所有其他同类芯片总和的 19 倍。

另外，英伟达在持续推出新芯片的同时，旧 GPU 也表现出了非凡的生命周期。2017 年发布的 V100 是 2022 年 AI 研究论文中最受欢迎的 GPU。

虽在 GPU 市场称王，但英伟达也迎来了很多挑战者，比如 Cerebras。

生成式AI逆袭

生成式 AI 迅速崛起，OpenAI 的 ChatGPT 成为增速最快的互联网产品之一。

但是，根据红杉资本的数据，生成式AI产品的持久力不太稳定。

与 YouTube、Instagram、TikTok 或 WhatsApp 等目前最受欢迎的应用程序相比，ChatGPT、Runway 或 Character.ai 等 GenAI 应用程序的中值留存率和每日活跃用户数较低。

在消费软件领域之外，有迹象表明 GenAI 可以加速实体 AI 领域的进步。比如自动驾驶领域，Wayve 推出了用于生成逼真驾驶场景的 AI 大模型 GAIA-1。

OpenAI、Anthropic 等 AI 企业正在成为大模型这波技术浪潮的中坚力量。

更多行业努力寻找和AI技术结合，且都出现了大手笔的交易。

比如许多传统制药公司已All In人工智能，与Exscientia和InstaDeep等公司达成了价值数十亿美元的交易。

还有风险投资行业也押宝在GenAI上，如果没有GenAI的繁荣，人工智能投资将比去年下降40%。

AI大佬集体出走

各科技大厂的AI大佬们也迎来了集体出走。

谷歌和 DeepMind 合并为谷歌 DeepMind，谷歌《Attention is all you need》论文作者全部离职创业。Transformer的这八位作者已累计融资了至少8.7亿美元！

百度硅谷AI实验室的DeepSpeech 2团队也面临相似的情况。该团队的大部分成员后来成为领先的机器学习公司的创始人或者高管。

未来的10个预测

报告最后他们也对AI 领域做出「未来一年的10 项预测」（去年报告预测9 项中了5 项），一年后我们再来看看达成几项：

1.一部好莱坞级别的电影作品将使用生成式AI 制作视觉特效。

2.一家生成式AI 媒体公司因在2024 年美国选举中的不当使用而受到调查。

3.自主进化的AI 代理将在高难度环境（例如：3A 游戏、工具使用、科学研究）大幅超越当前最先进的水准。

4.科技IPO 市场解冻，至少有一家专注在 AI 的公司（例如：Databricks）成功上市。

5.生成式AI 浪潮让一个组织花费超过10 亿美金来训练一个大规模模型。

6.美国的FTC 或英国的CMA 基于竞争问题对Microsoft、OpenAI 的交易进行调查。

7.在全球AI 管制方面，除了一些自愿的承诺外，实质进展不大。

金融机构将推出以GPU 为担保的债务基金，作为VC 股权资金的替代方案。

8.一首由AI 生成的歌曲进入Billboard Hot 100 前10 名或2024 年的Spotify 热门曲目。

9.随着AI 推论工作量和成本急剧增加，一家大型AI 企业（例如：OpenAI ）将会收购一家专门研发推论型AI晶片的公司。

最后，让我们期待一下，今年的预测能够实现几个。

「往期推荐」

END

欢迎全国各地以及境外科技产业及金融精英，寻找优质项目、资金及获得全球顶级金融圈层请联系Cathy，或者在菜单中点击【青投服务】——>【服务登记】，留下您的需求我们将竭诚为您服务。

「青投创新」

青投创新，新型科创产业服务平台，以科技、人才、资本为核心，通过内容出版、数据支持、产业咨询、科技转化等业务，为科技人才创业项目提供孵化及加速赋能服务，助力国家科技兴国计划。

「青年投资家俱乐部」

青年投资家俱乐部汇聚来自金融机构、政府机构、上市公司、产业公司、三方服务的数万名专家资源。

继续阅读

阅读原文