LLM 的下一站，推理这步大棋各路玩家都要怎么走？

机器之心PRO · 会员通讯 Week 47

---- 本周为您解读 ④个值得细品的 AI & Robotics 业内要事 ----

1. LLM 的下一站，推理这步大棋各路玩家都要怎么走？

Q*与Q-Learning有关系吗？模型推理下一步的重点是强化学习吗？Meta的S2A注意力机制好用吗？谨慎的小模型推理会更强吗？...

2. 英伟达财报猛涨，但仍没有达到预期？

英伟达财报数据猛涨背后靠什么？猛涨之后，为何股价下跌？财报数据离预期差在哪？“出口管控”政策对英伟达影响几何？...

3. OpenAI 吃瓜一周回顾，看这一篇就足够了

OpenAI 政变事件反转了几轮？微软在扮演了什么角色？OpenAI 董事会历来成员变化了解一下？...

4. 综述论文解析：NL2Code 模型发展到哪一步了？

代码模型发展史了解一下？不同代码语言模型之间的差异在哪？当前代码建模领域面临哪些挑战？代码生成从 NLP 领域借来的新技术有哪些？...

...本期完整版通讯含 4 项专题解读 + 30 项本周 AI & Robotics 赛道要事速递，其中技术方面 11 项，国内方面 7 项，国外方面 12 项...

本期通讯总计 26551 字，可免费试读至 6 %

消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读 ① LLM 的下一站，推理这步大棋各路玩家都要怎么走？

时间：11 月 24 日

事件：本周，外媒曝光 OpenAI神秘项目Q*。网友对该项目与 Q-learning 潜在关联的猜测掀起了一波业内对结合强化学习以赋予 LLM 推理能力技术路线的热议。

强如GPT-4，LLM 存在「幻觉」或因不会「推理」？

1、Konstantine Arkoudas（Dyania Health 的 CTO）曾于 8 月发布论文指出 GPT-4 模型在现实中常被归结为「幻觉」的问题，实则是 GPT-4 不具备推理能力。GPT- 4 存在内部不一致性、不能正确应用基本推理技术和缺乏对推理中起基础性作用的概念（如物质条件）的理解等问题。

2、微软团队于 11 月发布论文，指出包括 GPT-4V 在内的大模型在数学推理方面的能力仍然有限。该工作发现 GPT-4V 在多模态数学推理基准数据集「MathVista」仅有 49.9% 的准确率。该分数虽然领先其他模型，但与人类表现差距仍然很大。（详情请参考第 Week 46 期会员通讯）

3、美国圣塔菲研究所于 11 月发布论文，指出 GPT-4V 不会图形推理。该工作使用 ConceptARC 数据集中 16 个子类，共 480 道图形推理题对GPT-4V 进行测试，测试结果显示 GPT-4 做图形推理题的准确率仅有 33%，具有多模态能力的 GPT-4V 的准确率为 25%，表现更差。[3]

4、业内普遍认为，即便以 GPT 系列为代表的大型语言模型近期取得了极大突破，这些模型在数学推理、图形推理等方面仍存在明显的局限。

OpenAI 神秘的 Q* 到底在搞什么？各方如何猜测？

在 Sam Altman 被撤职并重返OpenAI的背景下，外媒路透社和 The Information 先后披露有 OpenAI 研究员事前曾向董事会发送紧急信函指出OpenAI近期有一项重大技术突破，可能对人类构成威胁。而该技术可能是 OpenAI 高管 Mira Murati 曾向员工提到的 Q*（发音 Q-Star）项目。

1、知情人称，Q* 项目基于自 OpenAI 首席科学家 Ilya Sutskever 过往取得的技术突破构建，相关成果能够支持他们主要使用计算机生成的数据来训练新模型。虽然 Q*的数学运算能力目前仅限于小学生水平，但它在这些测试中的出色表现让研究人员对其未来的成功充满期待。[6] [7]

2、因名称特殊，许多网友认为 Q*的技术可能涉及 Q-learning 这种强化学习（RL）方法，并引发一系列对结合语言模型与强化学习路线的讨论。这使得 Q-learning 一度登上社交网络 X（原Twitter）「热搜」。

3、斯坦福博士 Silas Alberti 表示，OpenAI 的 Q*可能与 Q-learning 有关，代表贝尔曼方程的最优解；或者 Q*指的是 A*算法和 Q 学习的结合。

4、Meta AI 研究员田渊栋也对 Q* = Q-learning + A* 的可能性进行了推测。他表示，基于在复现 AlphaZero 的 OpenGo 项目中的经验，A 算法可以看作是蒙特卡洛树搜索（MCTS）的确定性版本。A 算法适合于那些在给定动作时状态容易评估，但在例如 Q*传闻提到的数学问题这类给定状态动作时则难以完成预测任务。[4]

5、RebuyEngine 的创始人兼 AI 总监卡梅伦·沃尔夫博士表示，Q-Learning 「可能」并不是解锁 AGI 的秘密。但是，将合成数据生成（RLAIF、自指导等）和数据高效的强化学习算法相结合可能是推进当前人工智能研究范式的关键。[8]

6、随着Q-Learning成为X（原Twitter）的趋势话题，业内人士纷纷猜测 OpenAI 和谷歌都在尝试结合 DRL（深度强化学习）的方式加强模型推理能力。

7、事实上，在过去的一段时间业内各方势力也在从不同方向探索加强模型推理能力的方式。[9] [10] [12]

表：近期不同团队在加强模型推理能力方面的工作汇总[6] -[11]

谷歌 Gemini 是否可能解锁高级推理任务？

在 Q*传闻的基础上，有部分网友猜测 OpenAI 的技术路线是否和谷歌 DeepMind 的 Gemini 相似。（关于 Gemini 的情况请参考第 Week 30 期会员通讯）

1、网传谷歌的 Gemini 项目合并 AlphaGo 和类 GPT-4 大模型的语言处理功能，通过引入强化学习、树搜索等技术，提升智能系统的问题解决和规划能力。

2、谷歌首席执行官 Sundar Pichai 曾暗示 Gemini 的记忆和规划功能潜力，这为需要高级推理的任务打开了大门。

继续阅读

阅读原文

关键词

GPT-4

能力

数据

大模型

能力