八月综述 | 当开源模型成为Game Changer

「人容易高估短期变化，低估长期影响，因此回顾变得必要」

撰文：吴洋洋

生成式AI到底能不能创造价值？英伟达的财报高声叫喊着：“能！”

8月接近尾声的时候，英伟达以同比101%的营收增长率为技术公司的财报季收了个漂亮的尾。报告显示，截至7月底的第二财季，英伟达收入为135.1亿美元，同比增长101%，环比增长88%。同时，英伟达净利润达到61.88亿美元，同比暴增843%。

这是英伟达首次在季度收入上超过英特尔，后者一个月前公布的第二季度收入为129亿美元。两家公司的差距将在下个季度继续拉大：英特尔预计第三季度营收与第二季度差不多，为129亿至139亿美元；而英伟达预计，其截至今年10月底的第三财季，销售额将继续环比上涨27%，达到160亿美元，超出英特尔15%至24%。财报发布后，英伟达股价上涨6.6%，市值达到1.16万亿美元。今年以来，英伟达的股价已累计上涨222%。

把英伟达送上芯片设计头牌宝座的正是生成式AI。包括ChatGPT在内的所有生成式AI，都需要使用英伟达的A100（采用7nm工艺）和H100（采用4nm工艺）人工智能芯片训练和计算。投资银行Raymond James称，英伟达制造H100的成本为3320美元，而官方售价2.5万至3万美元，毛利率高达650%至800%。

英伟达的财富神话很容易让人想到特斯拉。自从特斯拉的股价增长奇迹，整个新能源汽车领域，尤其是中国新能源汽车品牌自2020年起全行业崛起，使中国超过德国，一跃成为仅次于日本的全球第二大汽车出口国。

生成式AI的故事不会与新能源汽车完全相同，而是会更大——有更多的参与者、更激烈的竞争、更快变化的底层技术、更多不确定性以及更多可能性。

Llama 2效应

ChatGPT发布后的第9个月，也就是刚刚过去的8月，生成式AI领域不仅没有熄火，反而更加活跃。7月底8月初，硅谷技术公司密集发布了第二季度财报，虽然业绩表现没有英伟达那么惊艳，但几乎所有公司的营收都涨了，而几乎每家公司都在财报及财报会中强调了对生成式AI的投入，并提出要将自己的AI助手（Google的Assistant、亚马逊的Alexa）背后模型尽快换成生成式的。暂时落后的亚马逊已将生成式AI设为“一把手工程”，CEO杰西直接对投资者承诺：“亚马逊的每个业务都有多个生成式AI项目在进行”。

Meta在8月几乎是跑步前进。月初，Meta提出要在9月推出一系列不同性格的聊天机器人，与只有一种性格的ChatGPT竞争。月中，Meta又表示即将推出一款帮助开发人员自动生成代码的开源模型——Code Llama，该代码生成模型基于其开源大语言模型Llama 2。下旬，一款叫“SeamlessM4T”的“多模态”翻译器也从Meta的生成式AI流水线下线了，与一般AI翻译只能从文本到文本不同，Meta的这款翻译器据称还能够“从语音到文本”或者反过来“从文本到语音”地直接完成翻译，不需要经过中间文本转换。同样的，这款翻译器也将开源。

闭源模型只能调用，数据需要上传到模型所有者那里，且每调用一次模型就要为此付一次费；而开源模型可以被部署在本地，数据自然也留在本地，并且使用模型是免费的。在闭源模型没有不可逾越的技术优势时，开源模型正因安全性而被越来越多开发者部署在他们自己的内部服务器上。

Meta的开源模型大幅改变了生成式AI的全球生态。8月，全球迅速出现了一大批基于其Llama 2精调形成的大模型，比如Stability 8月13日推出的类ChatGPT产品——Stable Chat，它所基于的大语言模型Stable Beluga是Stability AI在两代Llama的基础上精调出来的。所谓精调（finetune），就是在原有模型基础上，加入一些自己拥有、认为有价值的数据再训练几轮，从而让模型更优秀。Stability AI最为人熟知的能力是文生图，目前业界主流的文生图模型Stable Diffusion就是这家公司开发和开源的。Stability AI已将其精调后的Stable Beluga系列大语言模型上架到Hugging Face社区并开源，目前，仅Stable Beluga 2在该社区的下载量就超过55万。在中国，阿里巴巴、百度、腾讯等公司的云计算平台也都已在过去一个月内宣布了Llama 2的入驻。

一位投资人对《第一财经》杂志新皮层称，国内多家已经发布大模型的公司，其模型都并非从0到1的自研，而是基于已有开源模型的精调。而Llama 2发布后，一些曾经从0到1自研的大模型公司的API调用生意就做不下去了。比如北京智谱，过去客户使用这家公司的模型需要支付上千万元的费用，现在他们选择把Llama 2部署到自己的服务器上随取随用。

智能体兴起

Meta的开源战略影响的当然不只是北京智谱这样的模型公司，它也加快了一些将生成式AI与其他先进技术组合起来创新的速度。8月18日，以参加“华为天才少年计划”出名的稚晖君（彭志辉）代表上海智元发布了一款人形机器人“远征 A1”，如果不是基于开源的大语言模型，这款机器人不可能在稚晖君从华为离职仅8个月后就推出，而且在推出时就具备一些理解任务、编排动作的能力。

Meta以一己之力加速了生成式AI的行业进程，使技术公司的生存游戏从模型本身迅速进阶到了智能体（agent）——我们已经多次提到这一概念，它与我们常说的生成式AI、大模型最大的不同，就是其拆解复杂问题的能力，即能够将复杂任务拆解成多个小任务，然后调用相应软件、数据或者其他AI模型的API接口，逐一完成这些小任务，从而整体上完成一个复杂任务。目前，即便是最强大的GPT，无论在拆解复杂任务，还是将为小任务生成代码去调用其他程序的能力上，仍然准确性不足。

如何训练这种比GPT更强大的AI？OpenAI给出的答案是让GPT们玩游戏。8月16日，OpenAI宣布收购一家叫Global Illumination的初创公司，这家公司很小，只有8个人，但其产品——沙盒游戏（Sandbox Game）对OpenAI具有战略意义。这种电子游戏类似于《我的世界》，为玩家提供高开放、高自由度的游戏环境。这种环境比斯坦福大学和Google研究部门联合设计的AI“小镇”（Smallville）复杂得多，后者放置了25个AI智能体，每个智能体都由ChatGPT支持，拥有各自不同人格、工作、愿望。这25个智能体的小镇生活已经让外界有一种“创世纪”之感，未来沙盒游戏中的智能体将如何博弈和成长应该是OpenAI期待的。刚好，斯坦福大学的AI小镇项目也在8月开源了，你若感兴趣可以去玩玩看。

智能体可能是个抽象概念，一个更具体、更容易理解的对象是机器人。因为至少一半的业界人士认为，生成式AI要想超越GPT-4，变得更聪明，就需要一个身体，在与世界的空间交互中学习。

7月底，Google也发布了新款机器人RT-2，相较于上一代纯粹基于深度强化学习的机器人，RT-2可以完成未经训练的任务，因为其模型中接入了生成式大语言模型。这使它具备了部分推理能力，比如研究者让它“抓取已灭绝动物”，它就伸出手臂，抓住了恐龙。

不过请注意，并不是所有的机器人都可以成为智能体，就像不是所有大模型、生成式AI都能被叫作智能体。相较于形态，它更是一个技术目标。

金钟罩与铁布衫

虽然在开源生态、组合创新和智能体布局等方面取得了进步，然而大环境层面，生成式AI也在8月迎头撞上了一些墙。8月15日，中国第一份有关生成式AI的管理办法开始实施，在此之前，一批生成式AI应用在苹果应用商店中国区下架。其中一些应用比如讯飞星火在整改后重新上架，但一些应用再也没有上架，比如一些基于GPT、Midjourney等境外模型开发的面向国内用户的应用。

全球各国政府都对生成式AI严阵以待，不过中国开发者面对的挑战可能更大。除了应对国内监管，他们还面临融资上的压力。8月10日，美国总统拜登签署了一项行政命令，禁止美国资本对3项中国“敏感技术”投资，人工智能就是其中之一。包括纪源资本、金沙江创投、华登国际、高通创投等在内的VC投资机构都受到了美国国会中一个叫“美国与中国共产党战略竞争特设委员会”组织的的调查。红杉资本暂时不在调查名单里，但它已被点名为下一个调查对象。

中国并不缺乏资金，但国内资金普遍喜欢投资B轮（含）之后的项目，而不喜欢在A轮就出手。说白了，A轮的失败风险更大，过去也主要是美元基金的主场。没有了美国风险投资者为中国生成式AI创业者的梦想下注、背书，中国在生成式AI时代的独角兽数量远远落后于美国。截至8月底，美国生成式AI公司中估值达到40亿美元的公司就有三四个，而估值超过10亿元人民币的中国公司几乎看不到。

附：以下是2023年8月人工智能领域在模型及应用、智能体与政策方面值得关注的进展。

模型及应用篇

01. ChatGPT流量连续两个月下降

据数据分析公司Similarweb披露，今年6月和7月，ChatGPT的流量连续两个月下跌，6月环比下降9.7%，7月又下降9.6%。不过，Similarweb推测，流量连续下跌可能与暑假有关。之前教育服务公司Chegg承认，使用其作业辅助系统的学生正在流失，转而使用ChatGPT完成作业。随着夏季学期结束，学生用户短期内会有明显流失。6月，Chegg的流量同比下降28.3%，幅度远超ChatGPT的环比降幅（9.7%）。根据Similarweb的统计模型，ChatGPT 28.6%的用户是18岁至24岁之间的青年人，仅次于占比33.6%的25岁至34岁年龄段。

02. Bing AI没有带动微软搜索市场增长

据《华尔街日报》8月18日报道，分析公司StatCounter和Similarweb最新报告显示，7月，微软旗下的搜索引擎Bing占据搜索市场的份额仅为3%，且月度用户量仅为Google的1%，这与1月搭载ChatGPT的Bing AI推出前情况基本一致。生成式AI对微软搜索引擎的市场份额提升看起来没有太多帮助。微软对分析公司的数据提出异议，称第三方研究人员没有统计对Bing聊天的所有访问。今年2月，微软在推出Bing AI时，公司高管在与分析师的电话会议上表示，“搜索广告市场的份额每增加1个百分点，我们的广告业务就有望增加20亿美元的收入。”

03.“妙鸭相机”在微信朋友圈走红

8月初，一款叫“妙鸭相机”的AI人像生成应用在微信朋友圈走红。当你上传21张符合标准的个人照片并支付9.9元后，这款应用便会为你生成一个“数字分身”——其实就是一张你的二维头像；接下来，像在影楼一样，你可以选择各种风格的装扮，正装、校园、古风等等，程序会自动将你的头像与装扮结合起来，生出一张张数字影楼照。这款应用由阿里巴巴旗下的优酷团队开发，7月30日上线苹果应用商店。

04. TikTok、小红书上线文生视频/文生图发帖功能

7月24日，短视频应用TikTok上线新功能，允许用户以文本形式在应用上发表内容，平台会根据用户设置将文本转化为带音乐、表情、背景的视频。同一天，小红书也上线了名为“此刻”的类似功能，用户发帖时，输入文字后应用会自动根据内容生成一张图片作为配图。随着Meta旗下社交平台Threads入局，短文本内容平台的竞争趋于激烈，大家都想从流量日益下降的Twitter手中分一杯羹。此前Meta旗下照片应用Instagram已有一个名为“Instagram Stories”的功能，允许用户输入文本然后生成图片。TikTok这次推出的功能与它很像，面向所有用户开放，浏览文本生成内容时的界面和普通短视频相似，最长支持输入1000字。小红书本身就自带文本发表功能，这次推出的“此刻”是把生成式AI植入用户操作流程。用户按正常流程输入文本，小红书App会自动将文本转化为图片。

05. 亚马逊的热销书，有些作者居然是AI

《纽约时报》报道，亚马逊网站上有大量搜索结果排名前列的图书实际可能是AI生成的，涉及旅游指南、烹饪、编程、园艺、商业、手工艺、医学、宗教、数学以及小说等类别。《纽约时报》使用人工智能检测器Originality.ai对抽样的65本旅游指南检测，疑似AI生成的图书中大部分段落得分都得到了满分100分——得分越高，越可能是AI生成的；相比之下Rick Steves、Fodor’s、Frommer’s以及Lonely Planet等真人或出版方写作的旅游指南得分几乎都在10分以下。在ChatGPT吸引市场目光后，很快就有人利用ChatGPT写书。路透社在今年2月报道，亚马逊Kindle商店中已有200多本电子书将ChatGPT列为作者或合著者。亚马逊甚至开辟了新的子类型，“关于如何使用ChatGPT的书籍”，这些书完全由ChatGPT编写.

06. 用生成式AI，澳大利亚新闻集团每周生成3000篇本地新闻

据《卫报》7月31日报道，澳大利亚新闻集团正在使用生成式AI写新闻，每周生成的新闻稿数量大约达到3000篇。澳大利亚新闻集团内部成立了一个名为“Data Local”的部门，共有4名员工，由数据新闻编辑Peter Judd领导。该团队主要用生成式AI产出天气、燃油价格和交通状况等话题的新闻，并提供相关问题的回答，例如“在澳大利亚城市彭里斯哪里可以找到最便宜的燃油”。AI生成内容后，记者会进一步核查。目前，澳大利亚新闻集团正在招聘“生成式AI数据记者”，要求会使用AI自动创建新闻内容。

07. 腾讯开始内测“混元”大模型

作为BAT中唯一一家尚未推出类GPT模型和类ChatGPT对话产品的公司，腾讯终于在生成式AI方面有了进展。8月，腾讯自研的“混元”大模型已进入应用内测阶段，员工已收到内部邮件邀请，可以通过网页或者小程序体验大模型，内部多个业务也已接入该大模型开始测试。今年2月，腾讯成立“混元助手”（HunyuanAide）项目组，计划推出类ChatGPT的对话产品。

08. 字节跳动测试类ChatGPT产品“豆包”“小宁”等

8月18日，字节跳动大模型对话产品“豆包”开放测试，用户可通过网页或者下载App体验。“豆包”是字节跳动研发的大模型对话产品，具备自然语言处理、知识回答、语言翻译、文本摘要、情感分析等功能。除聊天机器人“豆包”外，同一测试页面还出现了其他各种AI助手，包括“英语学习助手”“全能写作助手”“超爱聊天的小宁”等。其中“全能写作助手”主要负责生成电影评价、视频脚本、诗歌或歌词；而“小宁”更侧重聊天。

智能体（agent）篇

01. Google的新款机器人RT-2，可以完成未经训练的任务

7月28日，Google DeepMind团队推出新款机器人Robotic Transformer 2（RT-2）。相较于过去为特定任务编写指令的机器人，新模型能够让操作者通过自然语言指示RT-2机器人完成任务，哪怕是它未接受过训练的任务，比如当DeepMind研究人员给出“抓取已灭绝动物”的指令后，RT-2伸出手臂，抓住了恐龙。2022年12月底，Google曾推出第一代Transformer机器人RT-1。RT-1是个在纯粹物理环境中训练的机器人，Google曾将13个这样的机器人放置到办公室工坊环境中训练了17个月。由此获得的数据被加载到了基于大语言模型的“视觉-语言模型”（visual-language model，VLM，）上，于是形成了“视觉-语言-动作模型”（visual-language-action，VLA），即RT-2。相较于RT-1，RT-2在从未接受过训练的任务上有更好的表现。Google的测试数据表明，对于训练数据中已有的训练任务，RT-2的表现与RT-1相同，但在未录入训练数据的训练任务中，RT-2的成功率达到了62%，而RT-1的成功率只有32%。

02. 斯坦福AI小镇开源

8月11日，由斯坦福大学和Google研究部门联合开发的AI项目——小镇（Smallville）宣布开源。该项目创造了一个完全由AI居民组成的小镇，可以视为一个微型AI元宇宙。这个小镇由25个AI智能体（agent）组成，这些AI是由ChatGPT支持的拥有各自不同人格、工作、愿望的单独个体。开发者为这些AI设计了小镇的物理模板，包括街道、住宅、家具陈设、公共区域，它们会根据各自的逻辑在小镇中生活，比如当它们看到早餐在燃烧时，会关掉炉子；浴室有人时，它们会在外面等待；与其他智能体交谈时，还会停下来聊天。“斯坦福AI小镇”看上去有点像游戏《模拟人生》的简化版，但其实很不一样。电子游戏中虚拟角色（NPC）的对话脚本基本都在事先就已写定，它们几乎没有后天自由发挥的空间。而斯坦福的“小镇”中的角色对话由大语言模型（Large Language Models, LLMs）生成，不需要事先确定。这些AI角色在拥有自主性的同时还能彼此互动，一起完成任务。

03. OpenAI收购游戏制作公司

Global Illumination

8月16日，OpenAI宣布收购初创公司Global Illumination，目前该公司整个团队已加入OpenAI，参与包括ChatGPT在内的核心产品的开发。Global Illumination成立于2021年，主要产品是一种叫沙盒游戏（Sandbox Game）的电子游戏，游戏提供了开放式的、自由度高的世界，让玩家可以在其中自由探索、创造和互动，而不受严格的预设目标限制。这是OpenAI首次公开收购，收购目的可能意在智能体（agent）的研发。微软此前也在积极收购游戏公司动视暴雪。

04. 稚晖君发布人形机器人“远征 A1”和控制系统WorkGPT

8月18日，稚晖君的创业公司发布了第一款产品人形机器人“远征 A1”。稚晖君本名彭志辉，毕业于电子科技大学，他2020年加入“华为天才少年计划”，负责华为昇腾计算产品线的全栈研发。去年12月27日，彭志辉发帖表示将离开华为，投身机器人创业项目，之后于今年2月27日参与创立上海智元新创技术有限公司。“远征A1”是该公司开发的一款人形机器人，身高175cm，重53kg，最高步速可以达到7km/h。它可以承重80kg，单臂最大负载5kg，相当于可以用一只手臂举起一袋常规体积的面粉。这款机器人基于的模型被称为“WorkGPT”，是一个集合了多个模型的智能体模型，包括一个类似ChatGPT的语言模型、一个视觉控制模型，以及其他用于本体控制、感知等的模型。

政策篇

01. 苹果应用商店中国区下架多款AIGC应用

8月1日凌晨，包括讯飞星火在内的多个生成式AI（AIGC）相关App在苹果应用商店中国区下架。下架主因是“在数据采集和使用等环节不够规范”。7月13日，国家网信办等七部门联合发布《生成式人工智能服务管理暂行办法》（以下简称《暂行办法》），首次对生成式AI产品的训练数据采集处理、用户隐私保护、防沉迷机制、违规内容处理、备案与许可要求等作出明确规定。该《暂行办法》于8月15日开始实施。开发者只要在限期内按照规定完成整改，产品有望重新上架。而提供具有舆论属性或者社会动员能力的AIGC服务的，还需要依法履行“算法备案”手续。这些规定意味着，包括GPT、Midjourney等在内的境外AI模型如果没有在中国网信办等部门备案并获得上市许可，其下游应用就难以在中国市场上市。

02. 美国将限制对华敏感技术投资

北京时间8月10日凌晨，美国总统拜登签署了一项行政命令，“禁止”美国资本对3项中国“敏感技术”——半导体和微电子、量子信息技术、某些人工智能领域——的新投资，并要求美国资本在投资中国“其他技术领域”时须获得“政府许可”。这项行政命令针对的是私募股权、风险投资、合资公司和绿地投资（greenfield investment，指从头开始建造新生产设施的投资，对应“棕地投资”brownfield investment，后者指对已有投资项目的扩建）。这一行政命令意味着，美国的对中“技术战”将不仅限于半导体，即芯片，也将扩展至人工智能、量子计算等多元领域，且手段从限制下游的商品进出口扩大到了限制上游的投资领域。这项行政命令还需要进一步征求公众意见，才能最终成为财政部的新法规，颁布时间大约在2024年——美国总统选举年。

-END-