Sam Altman 被开了，LLM-based-Agent 是真搞不成AGI？

机器之心PRO · 会员通讯 Week 46

---- 本周为您解读 ④个值得细品的 AI & Robotics 业内要事 ----

1.Sam Altman 被开了，LLM-based-Agent 是真搞不成AGI?

OpenAI 和谷歌 DeepMind 对于 AGI 的定义有哪些不同？为什么 DeepMind 不觉得 LLM 是 AGI？LLM-based-Agent 做 AGI 靠谱吗？LLM-as-agent 在性能上有哪些局限性？...

2. 通用具身智能热潮下，CoRL 2023 技术趋势了解一下？

CoRL 今年获奖论文了解一下？CoRL 今年热门论文主题了解一下？斯坦福团队在 CoRL 收获如何？今年大会和去年风向有何区别？CoRL 能看出通用具身智能下一步方向吗？...

3. 近四年的 Github Octoverse 开源报告都讲了什么？

GitHub 发布的今年 Octoverse 开源状态报告，都讲了哪些重点？爆炸式增长的生成式 AI 技术给开发者带来了哪些影响？常用的 AI 编码工具有哪些局限性？从 2020 年到 2023 年，四年间开源趋势有哪些变化？最流行的编程语言有哪些变化？...

4. 国产大模型创企都融多少钱了？

智谱 AI 又双叒要融资了？智谱 AI 还收购了别的创企？其他国产大模型创企融几轮了？这些公司都发了什么产品？...

...本期完整版通讯含 4 项专题解读 + 31 项本周 AI & Robotics 赛道要事速递，其中技术方面 12 项，国内方面 9 项，国外方面 10 项...

本期通讯总计 24065 字，可免费试读至 7 %

消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读 ① Sam Altman 被开了，LLM-based-Agent 是真搞不成AGI？

日期：11 月 18 日

事件：前段时间，前 OpenAI CEO Sam Altman 在一次访谈时表示，人类现在已经足够接近AGI的阈值。同时，Sam Altman 透露，OpenAI 正在开发下一代大模型 GPT-5。而近期，谷歌 DeepMind 也发表了论文，提出 AGI 分级框架，将 AGI 发展划分为六个不同的阶段，而 ChatGPT、Bard 等 LLM 仅处在 Level 1 阶段。LLM-based-Agent 能否通往AGI？这事 Sam Altman 可能也没有想清楚。

Sam Altman被OpenAI开除，OpenAI、谷歌 DeepMind 都是如何定义 AGI 的？

1、北京时间 11月 18 日，OpenAI 官方发布公告，Sam Altman 将卸任首席执行官并退出董事会。同时，OpenAI 董事长兼联合创始人 Greg Brockman 也在其社交平台宣布辞职。

2、而仅仅上周，Altman 还在代表公司在各大活动上发言。Sam Altman 在接受华尔街日报专访时表达了对AGI的论断，认为「人类现在已经足够接近AGI的阈值，提升AI的能力变得不那么重要。我们当前面临的问题是如何定义AGI。」

3、同时，在YC Alumni Reunion 2023上，Sam Altman也表示，真正的AGI将能够掌握“自行推理”，即随着时间推移发展出新知识。

4、但谷歌 DeepMind 对于 AGI 却有着不同的观点。在 Google DeepMind 发表的论文《Levels of AGI: Operationalizing Progress on the Path to AGI》中，列举了此前人工智能研究人员和组织将最新语言模型（LLM）认作为通才的例子，DeepMind 认为，“虽然我们同意通用性是 AGI 的关键特征，但我们认为它还必须与性能衡量相结合。”

① 据 Agüera y Arcas 和 Norvig 建议，2023 年中期部署的 GPT-4、Bard、Llama 2 和 Claude 等最新语言模型已经是 AGI，他们认为通用性是 AGI 的关键属性，因为语言模型可以讨论广泛的话题、执行广泛的任务、处理多模态输入和输出、以多种语言操作，并且能够从零次或少次示例中「学习」，因此它们已经达到了足够的通用性。

② 但论文研究者表示，虽然我们同意通用性是 AGI 的关键特征，但我们认为它还必须与性能衡量相结合，即如果一个 LLM 可以编写代码或执行数学运算，但不是可靠地正确，那么它的通用性还不足以表现出色。

5、此外，谷歌 DeepMmnd 团队还给出了 AGI 标准应符合的 6 个原则：① 关注模型能力，而不是过程；② 关注通用性和性能；③ 关注认知和元认知任务；④ 关注潜能，而不是部署；⑤ 关注生态的有效性；⑥ 关注 AGI 发展过程/道路，而不是只关心终点。

6、基于以上原则，谷歌 DeepMind 的研究团队用「性能」和「通用性」两个维度交叉界定了 AGI 的「等级」，并讨论了现有系统如何适应这个本体论。

7、谷歌DeepMind 在 AI 系统的「性能」（Narrow）维度上划分了级别，从 Level 0 到 Level 5，分别为无 AI Narrow Non AI（如非 AI 计算器软件；编译器）、涌现 Emerging Narrow AI（如古典人工智能 GOFAI44）、有能力 Competent Narrow AI（如Siri、Alexa 或 Google Assistant gasst ）、专家 Expert Narrow AI（如 Grammarly 的拼写和语法检查器；生成图像模型，如 Imagen 或 Dall-E 2 ）、大师 Virtuoso Narrow AI（如深蓝、AlphaGo）和超人类 Superhuman Narrow AI（如超人类狭义 AI AlphaFold、AlphaZero 、StockFish）。

8、值得关注的是，在该体系中基于任务表现出色的 AI 系统与通用性的 AI 系统都可能是高表现的 AI 系统。对通用 AI 系统来说（即 AGI），其层级则被定义为 General Non-AI（广义非 AI 人类参与的计算，如 Amazon Mechanical Turk）、Emering AGI（涌现 AGI ChatGPT、Bard、Llama 2）、Competent AGI（还未实现）、Expert AGI（还未实现）、Virtuso AGI（还未实现）、ASI（还未实现）。

图：Levels of AGI

LLM-based-Agent 不算是「靠谱」的 AGI 吗？[1]

1、基于论文原文内容，对关于「靠谱的 AGI」的定义进行了提取，需要满足：

① 拥有通用性与良好的性能，AGI 应该展示出广泛的能力，能在多种任务上表现出人类水平或超越人类水平的性能。

② 执行认知和元认知任务，AGI 应能执行包括认知任务（如数学和逻辑推理、空间推理）和元认知任务（如学习新技能、创造力）在内的广泛任务。

③ 关注实际应用情况，AGI 应能够在实际应用环境中发挥其性能和能力。

④ 使用工具情况，设计 AGI 应考虑是否允许使用工具，包括 AI 辅助工具，以及这种使用在何种程度上是合适的。

⑤ 关注开放式和交互式任务，AGI 应能执行开放式和交互式等任务，比传统 AI 度量具有更好的生态效度。

2、根据划分原则，ChatGPT 等基于大模型的 AI 系统被划分为在了 L1 Emerging AGI，而 Imagen 是 L3 Expert Narrow AI，AlphaGo 被划分为 L4 Virtuouso Narrow AI。ChatGPT 等基于大模型的 AI 系统所在的「Emerging AGI」是指在广泛的非物理任务，包括元认知能力（如学习新技能）方面，已经显示出一定能力的 AI 系统。这些系统能够执行多种任务，但其性能可能仅与未经训练的人类相当或略有超越。LLMs 在理解复杂或深层次概念、执行高级决策和解决具有创造性或非常规性的任务方面仍有局限。

3、除此之外，研究者还提出「AI-as-an-Agent」的交互模式可能在解锁高级别 AGI 的同时，带来极大的风险。

继续阅读

阅读原文