在上个月举行的英伟达开发者大会( GTC)上,英伟达创始人黄仁勋主持了一场颇受关注的对谈,对谈嘉宾是论文《Attention is all you need(注意力足矣)》的 7 位作者。这篇论文首次引入基于自注意力机制的 Transformer 模型,开创了生成式 AI 的新时代。
《注意力足矣》发表于 2017 年,有 8 位作者,被称为「Transformer 论文八子」。当天除了尼基·帕尔玛(Niki Parmar)未能到场外,其他 7 人阿西什·瓦斯瓦尼(Ashish Vaswani)、诺姆·沙泽尔(Noam Shazeer)、雅各布·乌斯克雷特(Jakob Uszkoreit)、利昂·琼斯(Llion Jones)、艾丹·戈麦斯(Aidan Gomez)、卢卡什·凯泽(Lukasz Kaiser)和伊利亚·波洛苏欣(Illia Polosukhin)都来了。
 英伟达 GTC Transforming AI 对谈活动预告。| 图源:英伟达
论文发表的时候,8 人都是谷歌的研究员。论文发表后的几年间,他们相继离开谷歌,除了凯泽加入 OpenAI,其他几人都选择了创业。
那么,他们的创业项目都是什么?从中又可以看出 AI 怎样的发展方向?
以下为文字要点,文末还有完整音频,不要错过。
NEAR Protocol
论文发表后不久,论文的第八作者波洛苏欣率先离开谷歌,后来创建了加密货币领域的区块链公司 NEAR Protocol。2017 年区块链加密货币大火,虽然美国证券交易委员会(SEC)拒绝了多家资产管理公司发行比特币现货 ETF 的申请,但不影响比特币的价格从 600 美元飙升至 2 万美元。
▲ 伊利亚·波洛苏欣 | 图源:CoinDesk
NEAR Protocol 目前估值约为 20 亿美元,曾吸引 a16z(安德森·霍洛维茨,Andreessen Horowitz)、MultiCoin Capital、Metastable、Coinbase Ventures 等区块链领域的著名投资机构。NEAR Protocol 是公链,自我定义为以太坊的竞争对手。其技术核心是名为「夜影(Nightshade)」的分片技术,每条分片可以完成 1000 笔交易(1000 TPS),并且分片可以线性扩容,100 个分片可以实现每秒 10 万笔交易, 远快于以太坊目前 30 TPS 的处理速度。
Cohere
2019 年 9 月,论文的第六作者戈麦斯在加拿大创立 AI 公司 Cohere。论文发表时,他还只是谷歌大脑(Google Brain,深度学习与 AI 科研项目团队)的实习生。结束实习后,他回到多伦多大学继续读书,创建了 FOR. AI。FOR. AI 最初是一个帮助研究人员学习机器学习技术的项目,后来发展为 Cohere For AI,一个寻求解决复杂机器学习问题的非盈利研究实验室。
他在 2018 年加入加拿大的谷歌大脑,与计算机科学家、深度学习之父杰弗里·辛顿(Geoff Hinton)合作研究知识蒸馏(knowledge distillation)。知识蒸馏是一种将大模型的知识转移至小模型的方法,旨在保留模型性能的同时减少计算资源的消耗。后来他短暂地与「八子」之一的乌斯克雷特在伦敦的谷歌分部合作,其间还被牛津大学的计算机科学博士项目录取,但很快退学,回到多伦多创立 Cohere。
▲ 艾丹·戈麦斯 | 图源:Cohere 官网
Cohere 在 2023 年 6 月以 22 亿美元的估值融资 2.7 亿美元。英伟达两轮参与投资,企业软件服务商 Salesforce、甲骨文以及 SAP 都参与了 Cohere 企业合作方轮的投资。与 OpenAI 的经营思路不同,Cohere 只面向企业用户,帮助公司定制 AI 服务。在大部分 To B 领域,公司应用 AI 的最大顾虑是隐私数据泄露,Cohere 可以帮助企业选择自己偏好的云服务,或协助其在本地部署相应的 AI 解决方案。
Cohere 较突出的能力是端到端的「检索增强生成RAG,Retrieval Augmented Generation)」技术,今年 3 月推出的新语言模型 Command-R,在 RAG 任务中的表现超越了开源替代品 Llama2 70B、欧洲大模型公司 Mixtral 和 GPT-3.5-Turbo。「检索增强生成」是一种将检索和生成模型结合起来的技术,可以将检索到的外部信息与生成模型的内部知识结合起来,生成更加准确、详细和相关的文本或回答,相比单一模型有更强的知识支撑和推理能力。知识管理工具 Notion 也是 Cohere 的客户之一。
Inceptive
论文的第四作者乌斯克雷特在 2021 年与斯坦福大学的生物化学家瑞朱·达斯(Rhiju Das)创立 AI 生物技术提供商 Inceptive。2023 年 7 月,Inceptive 在由英伟达旗下 NVentures 和 Andreessen Horowitz 领投的新一轮融资中筹集了 1 亿美元。乌斯克雷特研究生毕业于柏林工业大学,2008 年入职谷歌,领导过谷歌翻译和谷歌助手团队,是「八子」中提出关键概念「自我注意力」的人。
Transformer 不仅为 ChatGPT 等大语言模型生成视图文视频做出了重要贡献,也被 DeepMind 在 2020 年发布的 AlphaFold 蛋白质结构预测系统所采用,打造出能够预测蛋白质三维结构的革命性技术。乌斯克雷特说,疫情期间,他看到了疫苗和药物研发的不足,也有了自己的第一个孩子,所以希望把 AI 和疫苗、药物研发结合起来。他将 Transformer 架构和想法应用于生物设计、优化疫苗生产以及更高效的药物发现,也是「八子」中唯一在 AI 和生物制药领域创建公司的。
▲ 雅各布·乌斯克雷特 | 图源:BIO International Convention
Inceptive 开发了一个人工智能平台,可以通过机器学习模型设计独特的 mRNA 序列,在实验室快速创建和测试新的分子结构。目前 Inceptive 已经设计了从临床前到临床试验不同阶段的 310 个 mRNA 项目,还与一家欧洲制药公司合作,开发新型的基于 mRNA 的传染病疫苗。乌斯克雷特预计未来 10 年内会有 700 多种基于 mRNA 的新药问世。
Character AI
同样在 2021 年底离开谷歌的论文第二作者沙泽尔,与合伙人丹尼尔·德·弗雷塔斯(Daniel De Freitas)创立了 Character AI。1998 年从杜克大学毕业后,沙泽尔就加入了谷歌,曾是谷歌大脑的核心研究人员之一,专攻自然语言处理和机器学习模型。他参与并推动了 Transformer 架构在谷歌的落地应用。他的合伙人弗雷塔斯则创建并领导了谷歌大脑 LaMDA 项目的开发。
▲ 诺姆·沙泽尔 | 图源:TIME
Character AI 是以上公司中最有名的一家。在 3 月 a16z 发布的全球最受欢迎的 100 个消费级 AI 产品榜单里,Character AI 位列第三,前两位分别是 ChatGPT 和谷歌的 Gemini。Character AI 不同于大多数 AI 助手,它是基于角色的陪伴型聊天 AI。用户能够与各种虚拟角色交谈,比如文学作品里的虚拟人物,或是像埃隆·马斯克一类的名人。
动漫、游戏领域的角色占 Character AI 所有角色的 76%,其中最受欢迎的虚拟角色是游戏「原神」中的角色雷电将军,目前已经产生超过 2.8 亿条对话。Character AI 的用户群体集中在 18 岁至 24 岁年龄段,用户平均每天花两个小时使用产品,已经超过 TikTok 用户每天 95 分钟的使用时长,且每个用户每月和虚拟人物的对话多达约 298 个,在陪伴型人工智能产品中遥遥领先,比排名第二的 Poly AI 的 4 倍还要多。Character AI 的日活指标也一度超越 ChatGPT,而在用户使用时长和年轻人用户占比两个指标上,Character AI 已远超 ChatGPT。
沙泽尔认为,游戏、书籍、电影和社交平台等产业的本质都是相同的,就是大家处在「同一空间」交流对话,这整个产业价值 2 万亿美元。
Character AI 已经获得诸多知名投资机构的青睐。2023 年 3 月,a16z、红杉资本、A.Capital Ventures 等投资机构参与了其 A 轮融资。随后 a16z 又领头了新一轮 1.5 亿美元的融资。据报道,Character AI 已经在和谷歌风投等投资人商讨下一轮募资,本轮募资将可能达到 50 亿美元。
Essential AI
论文的第一作者瓦斯瓦尼和第三作者帕尔在 2023 年创立了全栈型智能产品开发公司 Essential AI。瓦斯瓦尼在南加州大学取得研究生和博士学位后留校担任了两年研究员,于 2016 年加入谷歌。帕尔和瓦斯瓦尼是南加大校友,早他一年加入谷歌,两人均在谷歌大脑工作。2021 年离开谷歌后,他们与戴维·栾(David Luan)创立公司 Adept AI。栾 2017 年加入 OpenAI,深度参与了 ChatGPT2 和 ChatGPT3 的开发,2019 年加入谷歌研究部门担任技术主管。去年 3 月,刚成立一年多的 Adept AI 宣布获得来自包括微软、英伟达在内的 3.5 亿美元融资,估值一举突破 10 亿美元。但在融资不久后,瓦斯瓦尼和帕尔就离开了 Adept AI,成立了 Essential AI。
▲ 阿西什·瓦斯瓦尼(左)和尼基·帕尔。| 图源:Bloomberg
瓦斯瓦尼和帕尔表示,Essential AI 的新业务与 Adept AI 并没有直接竞争关系,且两家公司官网披露的信息较少,但它们都聚焦如何帮助企业的数据分析师提高效率以开发新的产品。Essential AI 在官网上写道,「我们的技术将使数据分析师的效率提高 10 倍,并为业务用户提供成为独立的数据驱动型决策者的工具。它还将识别供应链中最大的风险,并提出改进建议。」
Sakana AI
底层大模型公司 Sakana AI 由论文的第五作者琼斯于 2023 年 8 月在东京创立。「Sakana」在日语中是「鱼」的意思。Sakana AI 于今年 1 月获得由 Lux Capital、Khosla Ventures、日本电信公司 NTT Group、索尼集团等投资者领投的 3000 万美元种子融资,并在 3 月发布了首个研究成果。
▲ 利昂·琼斯(左) | 图源:CNBC
Sakana AI 采用「模型合并(Evolutionary Model Merge)」技术,合并现有的人工智能模型以诞生一个新模型。这种技术与进化原理相结合,已经产生了数百个连续的模型代,如此不断进化优化,最终得到能在生成任务中表现最佳的全新神经网络架构。这种进化算法不需要人工设计和预设知识,就能自动发现更高效、参数更少、性能更强的架构,为 AI 模型的自动化设计创造了可能性。
「Transformer 八子」虽然选择了不同的研究和发展方向,但不变的是他们身上的创新与冒险精神,这也是科技迭代重要的推动力。
你看好以上哪家创业公司的发展方向?不妨来评论区与我们分享。
以上内容整理自
声动活泼旗下播客「科技早知道」
想了解「Transformer 八子」更多故事 
欢迎点击收听
也可在各大音频、播客平台搜索本期节目
监制/徐涛
编审/东君
视觉设计/Mori
排版、运营/Siti
更多有趣问题
欢迎来声动活泼找答案
继续阅读
阅读原文