LLM 之后，「Next token Prediction」还能训机器人？

机器之心PRO · 会员通讯 Week 13

---- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ----

1. LLM 之后，「Next token Prediction」还能训机器人？

为什么说「预测好下一个 token，就能达到 AGI」？NTP 技术是什么？伯克利是如何用 NTP 的思路训机器人的？「Next Action Prediction」在机器人领域能走通吗？...

2. 生成式 AI 又要在文娱掀起波澜了？

Sora 和 Suno 在文娱界最近有多火？GenAI 真的能用之后会发生什么？Sora 和 Suno 之前有过哪些生成式方法？GenAI 在文娱行业还有哪些应用？...

3. Richard Sutton 最新播客内容要点解读

Richard Sutton 在播客访谈中都透露了哪些关键信息？阿尔伯塔计划进展到哪一步了？Sutton 对于 AGI 的实现有哪些新思路？...

...本期完整版通讯含 3 项专题解读 + 31 项本周 AI & Robotics 赛道要事速递，其中技术方面 12 项，国内方面 9 项，国外方面 10 项。

本期通讯总计 28453 字，可免费试读至 11 %

消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读 ①LLM 之后，「Next token Prediction」还能训机器人？

事件：近日，由伯克利团队推出的人形机器人在旧金山街头散步的视频在社交媒体上引发热议。随后，研究团队发表了其技术论文《Humanoid Locomotion as Next token Prediction》，研究者创新性地提出将训练大语言模型时用到的「预测下一个 token」的思路，用在人形机器人的运动控制中。

为什么 OpenAI 觉得 NTP 可以实现 AGI？NTP 技术是什么？

1、下一个 token 预测（Next token Prediction，简称「NTP」）是许多大型语言模型（如 GPT 系列）的基石。「NTP」由「信息论」的提出者克劳德·香农在《通信的数学原理》一书中提出。

① 「NTP」的核心思路是，通过给定一个词序列的上下文，模型预测下一个最可能的词。这种预测能力使得语言模型能够生成连贯、逻辑性强的文本，从而在机器翻译、文本摘要、自动写作等多个应用场景中发挥重要作用。

2、OpenAI 首席科学家 Ilya Sutskever 坚持认为 token 预测是实现 AGI 的基石，曾多次表达对于该技术路线的肯定。Ilya Sutskever 认为，token 预测足以达到超人类的智能。在一次播客访谈中，Ilya Sutskever 表达了其对于 token 预测的理解。[1] [2]

① 针对「大模型只是通过像统计学一样的方式来模仿人类现有的知识和能力，没有办法超越人类」的质疑，Ilya Sutskever 认为，预测下一个 token 的质量，其实反映了其对于语言背后隐藏的语义和知识的理解程度。这不仅是统计，更是对世界本质的压缩和表达。

② token 预测需要建立符号到世界的联系，如果让这样的模型去预测，一个睿智、博学和能力非凡的人会有怎样的行为举止，它很可能可以通过人类数据进行推理和外推。这意味着，一个足够强大的语言模型，可以模拟出超越现实的假想情况。

③ 此外，OpenAI 的研究员 Jack Rae 曾在斯坦福的研讨会上做了报告《Compression for AGI》，详细论证了「「压缩即智能」，」核心观点为「压缩即泛化，泛化即智能。」

3、「NTP」技术的基本原理：[3]

① 「NTP」技术是因果语言模型的核心任务，目标是准确预测给定文本序列中下一个令牌（如单词或字符）；token 预测过程基于自回归机制，即模型一次预测一个令牌，并以左到右的顺序进行。

② token 预测大多基于 Transformer 架构，尤其是其仅解码器（Decoder-Only）变体。Transformer 通过自注意力（Self-Attention）机制，允许模型在生成每个新 token 时，考虑到之前所有 token 的上下文信息，从而生成更加准确和连贯的文本。

③ 在进行下一个 token 预测之前，文本首先需要被 token 化，即分解成模型可以理解的最小单位（即最小 token）。这些 token 随后被转换为嵌入向量，即在模型中的数值表示。为了让模型理解 token 的顺序，每个 token 的嵌入向量会与位置嵌入向量相加，这样模型就能够捕捉到序列中的位置信息。

④ 大型语言模型通过在大规模文本数据集上进行预训练来学习下一个 token 预测。这一过程是自监督的，意味着模型通过预测文本序列中的下一个 token 来自我训练，而无需外部标注的训练数据。通过这种方式，模型学会了理解和生成自然语言。

NPT 能做 LLM，还能训机器人？[4]

1、传统机器人的运动高度往往依赖于人工输入准确的预测接触点和执行器方向等信息，机器人只能在人类规定的路径中较好地运动和控制肢体动作，但到真实环境中难以适应及泛化。

2、伯克利研究团队的该项工作将「NTP」技术引入到了机器人领域，以类似方式来学习强化感官、运动表示模型。简单来说，该研究将现实世界中的仿人控制视为一个大型传感器运动轨迹数据建模问题。

① 首先，研究者把仿人机器人的感觉运动轨迹视作类似于自然语言中的单词序列，将感觉输入（如来自传感器的数据）和运动输出（如电机指令）的输入轨迹 token 化，组成轨迹的「单词」和「句子」。

② 然后，为了处理这些轨迹，研究人员训练了一个通用的 Transformer 模型来自回归地预测移位的输入序列。但与语言模型不同的是，机器人数据是高维的，包含多个感官模态和动作。

③ 机器人控制数据是多模态的，包含了不同类型的感觉输入和运动输出。研究者们通过将输入轨迹进行标记化，然后训练 Transformer 模型来预测这些标记，从而处理了这种多模态性。同时，模型能够预测完整的输入序列，包括感官和动作标记。研究团队在建模联合数据分布，而不是条件动作分布。

3、同时，研究团队发现，当轨迹是不完整的情况下，即感觉或运动信息是缺失时，可以通过预测存在的信息，并用可学习的掩码标记替换缺失的标记来从中学习。通过该方法，模型能够从不完整的数据中学习，并提高其泛化能力，使得模型在面对真实世界中常见的不完美或缺失数据时，仍然能够有效地工作。

① 预测现有信息：对于不完整的轨迹数据，模型会预测那些仍然存在的信息。这意味着，如果轨迹中缺少某些感觉或运动数据，模型会尽力根据可用的信息进行预测。

② 使用可学习的掩码标记：对于那些缺失的信息，模型不会忽略它们，而是使用特殊的标记（称为「掩码标记」）来表示这些缺失的部分。这些掩码标记是可学习的，意味着模型会在训练过程中调整它们，以更好地理解和处理缺失数据的情况。

4、此外，研究团队还构建了一个轨迹数据集用于训练模型，数据集包含了来自不同来源的轨迹，从而用来确保模型能够学习到丰富的感觉运动模式。数据集的数据来源自：

① 先前的神经网络策略：研究者们使用了通过大规模强化学习训练的神经网络策略生成的轨迹。这些轨迹是在模拟环境中收集的，包含了完整的感觉观察和动作命令。

② 基于模型的控制器：Agility Robotics 开发的基于模型的控制器，提供了在平坦地面上行走的轨迹，但只包括感觉观察而不包括动作命令，因为控制器输出的是关节扭矩，与研究者们的动作空间不一致。

③ 人类运动捕捉数据：人类运动捕捉（MoCap）数据，这些数据通过光学标记跟踪在实验室环境中记录。研究者们使用这些数据中的站立、行走和跑步轨迹，并通过逆运动学优化问题将这些轨迹重新定位到机器人上。

④ YouTube 视频：研究者们利用了 YouTube 上的视频，这些视频中包含了人类进行各种活动的画面。通过计算机视觉算法，他们从视频中提取了 3D 人体轨迹，并使用逆运动学优化将这些轨迹重新定位到机器人上。

5、值得一提的是，研究者验证了「Scaling」定律在机器人控制领域同样有效。研究者经过实验发现，使用更多轨迹进行训练可以减少位置跟踪误差，表明了在更大的数据集上训练可以提高性能。

① 研究者同样研究了在 Transformer 的上下文窗口中使用不同数量的 tokens 对模型性能的影响。结果表明，更大的上下文窗口可以产生更好的策略，这表明生成策略在规模上进行一种上下文适应，随着规模的增加而改善。② 在参数规模方面，研究结果显示，跟踪误差随着模型参数规模增大而逐渐减少。

「Next Action Prediction」的技术路线能走通吗？[5]

1、将类似「NTP」技术的思路用在人形机器人的运动控制中的技术路线能否真正走通，以及是否存在一定的局限性，该项工作的技术论文中并未提及。对于该技术路线是否有效，有 Reddit、X 网友表达了质疑。[7] -[9]

① 一位 Reddit 网友在阅读论文后，对「观测」和「行动」的概念感到疑惑，他表示，「文档中将动作定义为动作命令，但又提到控制器输出电机扭矩，这似乎与关节位置行动空间不一致。观测数据包括关节位置和惯性传感器信息，关节位置既是预测目标也是输入。尽管控制器理论上可以处理这些输入以运行机器人，但仍不清楚具体实现的细节。」

② 推特网友 Knut Jägersberg 认为，「下一个词元预测仅构建了一个有用的映射，但它并不是一个适用于更高层次机器智能的完整解决方案。就像被斩首的鸡可以飞行，但这并不意味着它具有远见。」

③ 推特网友 Lwin Moe Aung 表示，「我好奇的是，即使是简单的行走 10 秒钟，你也需要 10,000 条轨迹。而这些轨迹很难收集。」

2、同时，对于「NTP」技术本身是否有效，也存在着一定的争议，包括：

① 存在所谓的「雪球效应」现象，即每个步骤的错误率很小，但错误可能在长序列中指数级累积，导致整体准确性显著下降。

② 模型可能会学习到错误的规划策略，在需要前瞻性规划的任务中表现不佳，模型可能无法有效地学习如何制定和执行长期计划。

继续阅读

阅读原文

关键词

语言模型

信息

数据集

文本

人类