从 AlphaGo 到 ChatGPT,通用人工智能(AGI)始终是全球顶尖 AI 极客的信仰。
作者丨张   进
编辑丨陈彩娴
11 月中旬,AI 科技评论在元象位于深圳滨海大道的办公室见到了姚星。
此次会面的两周前,元象宣布开源了其新近自研的 650 亿参数通用大模型 XVERSE-65B,开发者可无条件免费商用,引起了国内人工智能领域的广泛关注与讨论。
此前,国内可商用开源大模型的上限是 14B,各家大模型在开源上的参数策略也十分一致,即:将参数小的模型(如 6B、13B、14B)进行开源,参数大的模型用于商业化。国内的开发者原以为国产大模型的开源将止步于 14B,没想到元象放出 XVERSE-65B,一下子在参数上将国产开源拉到了国际水平。
截止65B发布时国产自研、免费商用的开源大模型图谱
更值得注意的是,在 XVERSE-65B 出来前,成立于 2021年的元象在外界口中一直是一家用AI技术做3D引擎和元宇宙的公司。因此,XVERSE-65B 的开源出乎许多人的意料。
一位开发者向 AI 科技评论评价,“元象的 XVERSE 开源了基础核心代码,同时公开语料,对于有 to SQL 或 to Python 要求的团队来说是很友好的,开发者无需做大量训练就能知道哪块能力不足、需要加强训练以达到效果,也降低了开发成本。”
元象为什么入局大模型?又为何要将 XVERSE-65B 进行开源?
元象创始人姚星告诉 AI 科技评论在训练 XVERSE-65B 的过程中,元象一共花费了 300 多万美金(约 2000 万人民币)。在当前的国产大模型开源中,元象作为创业公司,此举可谓气魄十足。
据姚星讲述,事实上,无论是元宇宙还是大模型,元象的成立初心一直没有变:像全球最顶尖的人工智能团队一样,期待通用人工智能(AGI)的实现。
成立元象前,姚星是腾讯 AI Lab 的创建人。另一个少为人知的事实是,2016 年 AlphaGo 出来时,姚星是中国最早见到 DeepMind 创始人 Demis Hassabis 的一批互联网从业者,并从与 Hassabis 的交流中洞识到 AGI 的潜力。ChatGPT 爆火前,AGI 的代言人一直是 DeepMind。
姚星2019年演讲
DeepMind 最早谈 AGI,是基于深度强化学习的技术路线,该路线一度是 AI 从业者的主流信仰;但 GPT-3 发布后,大模型的技术路线开始成为实现 AGI 的主流途径。亲历了行业转变的姚星,在追求 AGI 的路上也对 AGI 有了迭代的认知。(本文作者长期跟踪大模型等AI领域的人物、公司故事与行业动态,欢迎添加作者微信 zzjj752254 互通有无。)
据姚星介绍,目前元象同时设立了元宇宙和大模型两大事业群。
姚星2004 年就加入腾讯,曾在腾讯平台部、基础架构部、搜索技术部等多个核心技术部门任总经理,主导研发了腾讯存储系统、搜索引擎、云平台、微信红包等核心平台和业务。2016 年,时任腾讯副总裁的姚星主导创建了腾讯首个人工智能实验室 AI Lab,2018 年又率领创建了腾讯首个机器人实验室Robotics X,并兼管腾讯技术工程事业群(TEG)的多个技术部门。
从互联网的身经百战,到人工智能的新战场,姚星对 AGI 有持续的认知迭代,而这段故事要从 2016 年姚星在腾讯带领团队研发围棋 AI 说起。
以下是 AI 科技评论与姚星的对话实录:
1
AGI:一个更大的野心
AI 科技评论:您从什么时候开始关注 AGI?
姚星:我第一次关注到 AGI,是 2016 年去英国访问 DeepMind 时听它的创始人 Demis Hassabis 讲的。
那时 AlphaGo 还没出来,国内知道 DeepMind 的人并不多。会面时 DeepMind的人一直在跟我讲通用人工智能(AGI),讲仿真世界,我还觉得有点奇怪。因为当时国内AI应用主要在做模式识别,比如人脸识别、语音识别,要不就是用传统自然语言处理(NLP)方法做一些简单对话服务,比如客服系统。对AI的认知是用深度学习技术解决一些检查、分割、识别、理解的问题。AI研究主要做计算机视觉(CV)、语音识别或文字转语音(ASR/TTS)、自然语言处理(NLP)等。这些方向似乎跟 AGI 没什么关系,但DeepMind对AGI就是有一种莫名的热情。后来的故事大家都知道了,AlphaGo战胜世界冠军李世石,举世轰动,这就是我对AGI的认知开端。
AI 科技评论:当时 DeepMind 对 AGI 的理解是怎样的?
姚星:DeepMind 对 AGI 的理解是,要实现 AGI,首先要创建一个仿真世界(Simulator),在虚拟世界里仿真数据,他们选择了深度强化学习方法,让AI能达到超越人类智力的水平。
DeepmMind走的路线,是先从游戏这个虚拟世界来仿真数据。游戏被认为是测试Agent(智能代理)的首选工具,DeepmMind最先从Atari游戏开始,然后依次探索了围棋(动作空间或状态空间计算复杂度为10的172次方)、星际争霸游戏(复杂度10的1682次方)。
为什么用游戏?因为游戏本身就是一个虚拟世界,它提供了丰富的任务,让AI Agent必须用复杂策略来应对。其次,游戏有简单的进度度量标准:游戏分数。这就方便进一步优化Agent的表现。
那虚拟世界、强化学习和AGI有什么关系呢?如果你在游戏中设定一个好的目标,运行AI Agent,就能产生大量数据;然后给Agent制定一个激励方式(reward),就能让产生的数据越来越优化。而到了优化数据足够多的时候,理论上就能通过这些数据训练出一个足以超越人类智能的AI,从而实现AGI。
AI 科技评论:所以回国后,您也开始在腾讯探索 AGI。
姚星:是的。我们也开始使用深度强化学习方法,想探索一条腾讯的 AGI 路径。当时我带领的团队主要是基于游戏场景来探索多个智能体在决策协作上的复杂能力,如腾讯在 2016 年推出的围棋 AI 系统、现在已经成为围棋国家队陪练的“绝艺”,2017 年推出的王者荣耀 AI“绝悟”(计算复杂度为10的20000次方)。
当时的这些工作,都是如今十分火热的 AI Agents(AI 智能体)早期雏形。(AI科技评论注:腾讯是国内最早研究游戏 AI Agents 的技术团队之一。)
AI 科技评论:那时候您被 AGI 震撼。
姚星:是的,但现实也很残酷。躬身入局后我逐渐认识到 DeepMind 的 AGI 路线也有它的局限性:
首先,仿真只能局部仿真,要仿真一个足够复杂的世界特别难。其次,深度强化学习是以目标为导向,跟人的认知不符合,人的认知并不是都有强目标的,例如人类在面对电车难题,如“如果你是列车司机,你愿意牺牲1个人来救5个人吗”这种伦理问题时,人是很难做抉择的。而 AGI 必须要有清晰的目标,围棋就是最好的例子,围棋的目标就是打败对面的对手,所以早期 AI 更多用在博弈系统里,但人类复杂世界中的许多场景无法列出清晰目标。
这也是我 2020 年从腾讯出来创办元象做元宇宙的很大一部分原因,就是觉得 DeepMind 的 AGI 路线未必走得通,我想做去仿真世界。因为元宇宙也是仿真,所以当时觉得入局元宇宙,可以先攻克实现 AGI 的一个难题。所以我们心中的元宇宙,一直是用AI方法来生成3D世界内容。
没想到元宇宙研究了一年多后,2022 年年底 ChatGPT 问世了。ChatGPT 的大模型路线与DeepMind的深度强化学习路线不同,它不用去虚拟世界仿真数据,而是直接从真实世界中拿到大量的高质量自监督数据,这样的数据具备多样性,提升了GPT的泛化能力,可以做不同的任务类型,而且这些数据都是人类长期积累的经验和知识数据,让AI具备很强的认知能力。
AI 科技评论:大模型让您看到新的希望。
姚星:是的,所以今年2月底刚解封,我就去美国拜访了 OpenAI,见了 OpenAI 的很多人,当时的想法就是去了解大模型究竟是怎么回事、是不是也适合我们研究。最后结论是我们能做,我们也必须做。
我们能做,是因为当时觉得GPT是一个复现工程,理论上我们有机会做出一个不错水平的。我们必须做,是因为这个方向的确是元宇宙的有力补充,它让虚拟世界的真实性更加完整,即真实的感知智能(元宇宙/3D)+真实的认知智能(AI)。
最后从AGI角度,元宇宙后续可能也会为大模型提供更多样化、高质量的自监督数据。
2
元象“炼”大模型背后
AI 科技评论:元象 XVERSE-65B 是怎么训练出来的?
姚星:首先我们要肯定Meta开源Llama对整个大模型行业贡献巨大。大模型是一个成本和试错都需要非常多开销的系统。Llama的开源把整个行业的试错成本大大的降低了。
我相信目前不仅是国内、甚至可能全球大部分大模型都在结构上借鉴了Llama。但Llama开源了结构,整个训练过程、训练语料是没有公开的。而对绝大部分团队,想从零训练一个大模型,也是非常不容易的。除了已知算法以外,还有很多实战性的tricks(技巧)需要摸索,比如如何处理数据shuffle、分词,如何应对训练过程中的诸多意外情况,比如损失函数产生NaN值导致的训练中断。这里的关键,在于保证训练结果好的同时提升训练效率,也就是我们常说的系统架构的高性能和稳定性。
从零训练65B绝不容易,参数量到了一定程度,我们不能再通过单卡或单机装载整个模型,而跨卡跨机通讯会带来很大的性能和稳定性风险。为了加快训练速度,要同时并行跑多个训练副本,副本数据要保持一致,这些成本、性能、数据一致性等构成了互斥问题,很难同时兼顾。
这些问题最终会折算成解决显存优化问题,卡间/机间通讯IO、计算IO并行问题、多副本一致性问题,以及设备或网络故障的稳定性问题。
所以在研发当中,元象除了做算法优化和语料数据收集整理等,也针对上述问题进行了自主设计和研发,这让我们7B、13B到65B,能以较低成本、较快速度训练出来,也坚持了“高性能”的定位。
AI科技评论:XVERSE-65B 训练过程有哪些创新?
姚星:除了常规的一些算法工程以外,65B 主要聚焦在性能和稳定性架构设计优化上。
一是显存优化。大模型能达到智能涌现,业界共识是参数量要大,因此高效利用GPU显存成了关键因素。除了常规的参数混合精度设计,我们对优化器显存使用有独特优化,还在参数、梯度、优化器上做了很多分布式考虑,这些都大幅提升了显存使用率。
二是计算IO优化。在并行计算上,我们考虑了多种并行计算的可能,包括transformer 不同block之间的通讯和计算单元的设计,还在transformer 矩阵运算上做了独特处理,提升了并行计算性能。
三是架构稳定性优化,大模型训练的核心挑战之一是设备庞大、故障率高。遇到故障时,传统训练方法是停下来恢复到上一个checkpoint重新训练,这样设备越多,系统稳定性会持续下降。基于此,我们设计了一套持续训练架构,高稳定、低中断、强容错,把每周有效训练率提升至98.6%,保证了模型训练的效率和稳定。
AI 科技评论:训练 XVERSE-65B 一共耗费了多少钱?
姚星:300 多万美金。
AI 科技评论:为什么有如此魄力将耗费了 300 多万美金的大模型开源出去?
姚星:首先是我们发现行业需要 65B 参数规模的大模型,如果开源出去,大家就不用重复造轮子了,而每个人都去做一遍的成本就不止 300 万了。
其次,GPT-4 出来后,我不仅震惊于 GPT-4 本身,还震惊于 OpenAI 在 9 月就开始招募各学科的专家加盟 OpenAI 红队,设置红队蓝队的安全性对抗以提高 AI 模型的安全性,我当时还感慨他们这么早就开始设置对抗。正是他们对这些不被我们重视、但可能会影响人类未来的维度(如 AI 安全)的重视,深深触动了我,也激励了元象开源 XVERSE-65B。
未来元象还是想坚持做一些利他的、更长期的事情,所以就决定把 65B 开源出去,供需要的人、供行业使用。(本文作者长期跟踪大模型等AI领域的人物、公司故事与行业动态,欢迎添加作者微信 zzjj752254 互通有无。)
AI 科技评论:哪些人需要 65B 规模的大模型?
姚星:不一定是商业公司,更重要的是科研机构。到了 65B 规模,模型才会出现所谓的智能涌现,有利于科研机构的从业者去做研究,特别是生命科学类的。
我曾在腾讯做过一个类似于 AlphaFold 的、解决蛋白质折叠问题的 AI 工具 tFold,还在CAMEO(全球唯一的蛋白质结构预测自动评估平台)的国际测评中连续半年保持周度冠军。当年这个项目里的很多人出来创业做生物医疗,我跟他们都交流过,大家很希望能把大模型技术用起来,例如对蛋白质的 DNA、RNA 序列进行检测,这就是 AI for Science(用 AI 研究科学问题)。
所以开源 XVERSE-65B 的一个很重要的出发点是,希望科研机构、特别是一些跨领域的科研机构使用大模型技术,用大模型帮助他们做一些更深入的研究。毕竟对这些科研机构来说,花几百万美金去训练大模型是不现实的。
AI 科技评论:开源对元象的价值和意义是什么?
姚星:对元象而言,开源不仅是一种态度,也是一种能力,能持续深入了解开发者真实的需求和使用场景,增加模型通识能力和安全部署,也可以持续打磨自身技术。
其次从商业角度来看,海量中小企业、研究者和 AI 开发者如果能早一步用起来 XVERSE-65B,便可以突破现在“小”模型的一些应用局限,探索更大的应用可能性。
AI 科技评论:开源 XVERSE-65B 会影响元象的商业化吗?
姚星:我们开源 XVERSE-65B 其实是想让更多的科研机构、更多非从事大模型的人和公司能够用起来,而不是通过开源去建生态做商业化,这还比较远。
AI 科技评论:为什么还比较远?
姚星到目前为止,我觉得大模型商业化在中国还需要继续探索,无论是To B还是To C。目前我更看好To C。
To B在国内太卷,很多是赋能行业或提效工具,这样大模型基本是打辅助,公有云化的产品会由云厂商获得利润,如果只是私有化部署,会导致绝大部分是解决方案,成本大部分为硬件成本。
To C我觉得未来有两种可能,一是通过大模型产生新的“Super App(超级应用)”,二是通过大模型赋能UGC,为终端用户降低门槛,带来更高创造力,类似GPTs。GPTs肯定是大厂必争之地,我们作为创业公司可能还是要聚焦大模型驱动的新型APP。
AI 科技评论:那您觉得开源跟商业是什么关系?
姚星:对元象来说,商业化不依赖开源。元象并不是要通过开源去吸引用户、做生态。开源就是开源,商业化是商业化,这是两码事。我们的大模型商业化会聚焦在To C上。
AI 科技评论:未来会持续开源吗?
姚星:我们根据中小企业和科研机构的算力判断,目前推出的 XVERSE-7B、13B 到 65B,高性能、全开源、无条件免费商用条件下,基本能覆盖大部分科研机构和中小企业商用需求。
大家只要根据不同场景,选择适合的开源模型就行,不同场景下,可能需要更大、更全面的模型,也可能只需要很小但更专业、更聚焦的模型。
原来腾讯有句话,叫做“科技点亮人文之光”,我们也会把开源大模型当作长期事业去做。
AI 科技评论:国内只要发一个模型就说自己赶超 GPT-3.5,或者接近GPT-4,您怎么看?
姚星:有一些被行业吐槽的是刷榜行为、把评测集数据放到训练语料去用,其实意义不大,,
刷榜是一种陋习。如果大家都说接近甚至超过 GPT-4,这明显不符合实际情况,这会让大家对中国大模型能力没有清晰认知,偏离真实发展,导致行业浮夸之风盛行。(本文作者长期跟踪大模型等AI领域的人物、公司故事与行业动态,欢迎添加作者微信 zzjj752254 互通有无。)
AI 科技评论:国内可以从哪些方面赶超 GPT-4?
姚星:国内一直在追赶 GPT,中国团队复现能力很强,未来肯定也会有人能做出 GPT-4,但我觉得双方的差距还是很远,除了基础研究能力、、客观条件上有限制,比如算力,另外理念上也有不小的差距,我们太多方面比较看重短期利己,例如对 AI 安全的不够重视。
AI 科技评论:未来国产大模型会往什么方向发展?
姚星:单从文本认知角度来看,如果 OpenAI 没有推出一个更加炸裂的前沿技术,只是沿着大语言模型这条路一直往下走,那么中国公司有能力跟上。但从多模态来讲,国内可能有不小差距,这跟算力吃紧也有关系,多模态要求的算力远远高于文本。
短期制约来看,主要还是算力和商业模式的问题。
AI 科技评论:您觉得大家的时间还很多吗?
姚星:其实不多,如果找不到可持续的商业化模式,随着人员、设备膨胀,大家手里的钱其实都很难维持烧很多年。
3
元宇宙 vs. 大模型
AI 科技评论:现在元象在元宇宙与大模型两个业务上的人员配比是怎样的?
姚星:元宇宙跟大模型在元象内部是两个团队,算是两个事业部,人员配比大约是7:3。
跟Meta这类元宇宙公司不同,元象的定位并不是生产终端设备,而是聚焦用AI技术解决3D数字内容从生产到消费(呈现)的问题。这里的AI技术,既有传统的计算机图形学技术,比如NeRF神经辐射场技术,能高效低成本进行三维重建,也有大模型AIGC技术,如扩散模型Diffusion Model等。
AI 科技评论:现在市场都在唱衰元宇宙,很多大厂都已经裁撤了元宇宙部门,为什么元象还要坚持做元宇宙?
姚星:也不是坚持做元宇宙。而是我理解的AGI,是通过仿真方式来实现,而元宇宙恰好是仿真环境的绝佳技术。
我们会坚持大模型和元宇宙两条腿走下去。通过元宇宙构建感知智能,仿真更多的自监督数据;通过大模型构建认知智能,用超强计算能力达到事物高水平理解和决策。
有很多公司都在两条腿并行走路,只是表达方式不太一样,比如Meta是元宇宙和大模型并行,DeepMind和OpenAI也是,但他们更强调强化学习。
我觉得 AGI 是值得我们长期坚持和追随的,这是一条难而正确的路。
AI 科技评论:您觉得 AGI 的实现需要哪些元素?
姚星:图灵说人工智能是机器学会像人一样思考,也就是机器通过接收信息进行自主决策,比如接收语言信号、视觉信号,或语言+视觉信号,再进行推理。
要实现AGI,AI要能接收和理解输入信号(语言+视觉),推理决策后输出信号(语言、创造、动作等),所以AGI离不开对输入信号的理解(感知智能)、AI的推理决策(认知智能,如大模型),到输出信号(感知智能),这也就是我经常说的 AGI = 感知智能+认知智能。
AI 科技评论:所以大模型能实现AGI?
姚星:目前方式感觉挺难的。大模型开始显现它的局限性,原因就在于大模型本质依然是一种对齐技术。
什么意思呢?对齐并非推理。我们人类学会九九乘法表,就能算出所有数字的相乘之积,但大模型不能。它的推理是建立在见过相关数据的前提之下,进行的一种关联,所以它还是鹦鹉学舌,没见过就没法对齐。大模型本质上是有多少数据、发挥多大力量,这就是它的局限性。
未来大模型发展的一个很大挑战是探索自监督数据,因为大模型目前把已知人类积累的自监督文本数据语料基本用完了。要达到AGI,可能还要去思考怎么生产更多高质量的自监督数据,比如通过仿真模拟环境,合成更多的自监督数据。特别是vision2action的数据,因为人类的输入信号并非只有文本信息,大量是视觉信息,比如游戏,比如开车等,是需要通过视觉信息再进行判断推理。强化学习肯定是一种非常有用的手段,但强化学习也有很多局限,比如泛化性很差,比如有效Q函数很难找到等。
因此在我看来,要实现远大的 AGI 理想,大模型还是不够,可能要把对齐和仿真结合,才有机会。
这也是元象为什么还在坚持做元宇宙。通过元宇宙对真实世界仿真模拟,创建大量的vision2action数据,实际上我心目中的AGI,也许就是大模型+元宇宙
AI 科技评论:您怎么看今天大模型给我们整个世界带来的变化?
姚星:前段时间听陆奇讲大模型带来新的范式,给我带来很大的触动。每个人都能依靠大模型,通过自然语言与计算机交流的方式去做自己的 APP、游戏、网站、工具等等,这在以前是很不可思议的。
云时代把软件系统的部署和运营问题解决了,大家不需要对互联网海量系统有过多的经验,直接接入云服务,就能提供互联网海量服务(海量的用户和访问)。
大模型带领我们进入 AI 时代,极大降低创作门槛,每个人能创造的,不再局限于文本、图片或视频,而是用大模型创造网站、游戏、APP这样更“高级”或更高维度的信息,创造更多操作和交互、更智能有用的工具,这意味着云+大模型能让每个人自由创作。在大模型时代,人人都能是程序员,都能创作。
未来是一个灵感肆意迸发并能将其实现的世界,你不觉得这样的世界、这样的人生特别有意思吗?
本文作者长期跟踪大模型等AI领域的人物、公司故事与行业动态,欢迎添加作者微信 zzjj752254 互通有无。
更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

继续阅读
阅读原文