机器之心PRO · 会员通讯 Week 04
---- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ----
1. 视频数据是开发下一代 AI 的关键吗?
为什么 LeCun 觉得下一代 AI 需要学习视频数据?Transformer 的视频学习能力如何?Transformer 的竞品会更擅长学习视频数据吗?...
2. 「用 AI 训 AI」这事靠谱吗?
Meta 提出的「自我奖励方法」是如何实现「自我迭代」的?与传统的奖励模型相比有哪些优势?RLAIF 与「自我奖励模型」有哪些不同?使用 AI 合成数据训练模型可靠吗?存在哪些风险?...
3. 从数据看 AI 开源社区的发展情况
开源 AI 项目、贡献者发展趋势如何?开源 AI 基础模型的发展情况如何?2023 年,开源 AI 创企的市场情况怎么样?对于开源,AI 业内大佬有哪些看法?...
...本期完整版通讯含 3 项专题解读 + 29 项本周 AI & Robotics 赛道要事速递,其中技术方面 12 项,国内方面 6 项,国外方面 11 项...
本期通讯总计 25157 字,可免费试读至 12 % 
 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 

要事解读 ① 视频数据是开发下一代 AI 的关键吗?

时间:1 月 20 日
事件:在达沃斯世界经济论坛 - The Expanding Universe of Generative Models 座谈会中,图灵奖得主、Meta 首席 AI 科学家 Yann LeCun 分享了他对下一代 AI 系统所应具备的能力的看法。在过程中,LeCun 表示,公开的互联网数据正在耗尽,视频数据具有更加丰富的信息,但如何让 AI 理解视频数据仍是问题。一起参与讨论的还有斯坦福大学教授、Coursera 联合创始人 Daphne Koller,她指出了理解因果关系对于构建未来 AI 系统的重要性。
大牛们认为下一代神经网络结构需要有什么能力?
1、Daphne Koller 在讨论中强调了数据作为 AI 发展的关键推动力,但当前 AI 模型对数据的利用才刚刚开始触及表面,还不能成功与世界互动。伴随增强现实技术、自动驾驶汽车、生物学和医疗保健等领域正在带来更多数据,AI 模型将开发出新的能力层次。
2、LeCun 表示,当前的自回归 LLM 的发展正趋向极致,但数据资源正变得越来越少,我们基本上已经使用了互联网上所有的公共数据。我们还需要发明一些新的科学方法和技术,来让未来的 AI 系统像孩子一样,能够利用看到的信息进行交互和学习。
① 当前的 LLM 或一般的 NLP 系统的训练方式通常是通过删掉一些词来「破坏」一段文本,然后让大型神经网络来重建文本,也就是预测被删掉的词,从而训练得到类似 ChatGPT 和 Lama 这样的模型。
② 当人们开始用同样的方法将数据换成图片,训练大型神经网络来预测图像损坏的部分,但效果并不好,对视频数据也是一样。
3、LeCun 表示,适合用来处理视频的模型并不是我们现在大范围应用的生成模型。而且新的模型应该学会在抽象的表征空间中预测,而不是在像素空间中。
① 他表示,目前最有希望的,至少是能用于图像识别的东西并不是生成式的。所以最有效的模型不是生成图像的,不是重建,也不是直接预测。它做的是在一个抽象的表征空间中进行预测。
② 我们需要在抽象表征空间中预测,而不是具体的像素空间。这就是为什么像素空间的预测都失败了,因为它太过复杂。
4、LeCun 和 Koller 还表示未来 AI 系统不仅需要理解数据之间的关联,还需要理解因果关系,能夠通过干预世界并观察结果来学习。这种理解是跨越数字世界与物理世界的桥梁。
① LeCun 进一步提到,在具身系统中,这样的系统将能够基于其对世界的模型来规划和执行达到特定目标的行动。
② 目前没有任何基于这一原理的 AI 系统,除了非常简单的机器人系统。它们的学习速度并不快。因此,一旦我们能够扩展这种模型的规模,我们就能拥有能理解世界、理解物理世界的系统。
Transformer 能学习视频数据了吗?
作为目前最流行的神经网络结构,有很多工作都尝试用视觉数据来训练基于 Transformer 的模型。以字节团队近期发布的 GR-1 模型为例,该工作面向端到端的机器人操作任务,首次证明了通过大规模的视频生成式预训练能够大幅提升机器人端到端多任务操作方面的性能和泛化能力。
1、具身智能是典型的需要 Agent 基于物理身体与环境交互,从而获取信息、理解问题做出预测并实现行动的智能系统。近期有许多基于 Transformer 的工作在尝试解决机器人操作的相关问题。
① 许多方法使用语言指令的方法采用利用 LLMs 来规划任务,并将指令指令传递给低级别的动作策略以生成机器人动作,如 RT-2、CLIPort 和 PerAct 等;
② 也有方法采用 Transformer 模型解决顺序决策问题,涉及多模态、多任务的机器人操作策略学习,如 Decision Transformer 和 VIMA 等;
③ 用预训练进行机器人学习的路径主要分为两种,一条路线通过遮蔽图像建模和对比学习来学习有用的视觉表征,另一条先则先通过学习一个世界模型,然后用学到的模型训练一个强化学习 agent。
2、字节团队于 2023 年 12 月发布的 GR-1 有别于以往方法,使用的是针对视频预测和动作预测的统一模型。
① 对比近期的 RPT 方法通过预测不同模态的遮蔽标记来学习物理世界的模型,GR-1 更适应设计视频预测任务的大规模预训练,并专注于语言条件的多任务处理。
3、GR-1 是一个端到端的机器人操作模型,采用了 GPT 风格的 transformer 作为模型架构。
① 语言输入:使用 CLIP 作为语言编码器,将语言指令编码成文本;
② 视觉输入:通过预训练的 Vision Transformer (ViT)编码,输出的 CLS 标记被用作图像的全局表示,输出的补丁标记作为局部表示;
③ 机器人状态输入:包括机器人末端执行器的 6D 姿态和抓手的二进制状态,通过线性层编码。
4、GR-1 首先在大规模视频数据上进行视频预测的预训练。预训练结束后,GR-1 在机器人数据上微调。微调的训练任务包含未来帧的预测和机器人动作的预测。
① 预训练环节,GR-1 使用 Ego4D 数据集的数据进行大规模视频生成式预训练,该数据集包含大量的人与物体交互场景。在预训练期间,模型会随机抽取视频序列并训练预测未来的图像帧。
② 微调环节则会从机器人数据集中随机抽取序列,并对 GR-1 进行端到端优化,使用因果行为克隆损失和视频预测损失。
5、研究者在 CALVIN 机器人操作仿真数据集上进行了实验,GR-1 在 1) 多任务学习 2) 零样本场景迁移 3) 少量数据 4) 零样本语言指令迁移上都取得了 SOTA 的结果,证明采用视频数据的预训练方法可以大幅提升模型表现。
6、真机实验方面,过视频预训练的 GR-1 在未见过的场景和物体的表现也大幅领先现有方法。
7、在字节团队的 GR-1 之外,谷歌的原生多模态大模型 Gemini 同样采用了视频数据进行模型训练。(详情请参考 2023 年 Week 51 期会员通讯)
① Gemini 的训练数据采用了多模态和多语言数据集,预训练数据集使用来自网络文档、书籍和代码的数据,包括图像、音频和视频数据。
② 模型性能方面,谷歌表示 Gemini 是第一个在经过充分研究的考试基准 MMLU 上实现人类专家表现的模型。此外,Gemini Ultra 在 32 个基准测试中的 30 个中刷新了业界最佳(SOTA)水平。
Transformer的竞争对手在学习视频数据上更优还是更劣?
Transformer 的核心是自注意力机制,其特点是能够同时考虑输入序列中所有位置的信息,并且具有非常好的并行化性能。但缺陷是计算效率低,其计算量会随着上下文长度的增加呈平方级增长,而视频的信息量比文字要多得多。
1、Transformer:最早由 Vaswani 等人在 2017 年提出,是当下 LLMs 普遍采用的神经网络架构,
① 包括 BERT、GPT 系列、Gemini 等模型均采用了 Transformer。
2、RetNet:微软亚研院和清华大学的研究者于 2023 年 7 月提出的神经网络架构。RetNet 作为 LLM 的基础架构可同时实现低成本推理、高效长序列建模、媲美 Transformer 的性能和并行模型训练,打破了「不可能三角」。
① 「不可能三角」指在 RetNet 之前,许多工作希望改进 Transformer 的方法无法同时实现「并行训练」、「低成本推理」和「良好的扩展性能」的共同提升,至少对比 Transform 没有绝对优势。
② RetNet的优势之一是它对推理延迟对批大小不敏感,可承担更大的吞吐量。
③ 对于 7B 模型和 8k 序列长度,RetNet 的解码速度是带键值缓存的 Transformers 的 8.4 倍,内存节省 70%。
3、SSM(状态空间模型):一种动态时域模型,以隐含着的时间为自变量。SSM 因 2023 年 12 月出现的 Mamba 模型受到大量关注,此前采用了 SSM 的架构还有 Linear attention、H3、Hyena 等。
① SSM是一种基础科学模型,广泛应用于控制论、计算神经科学、信号处理等领域,广义上指对潜变量如何在状态空间中演化进行建模的任何模型。
② SSM 具有许多丰富的特性,实际上可以以多种形式编写。其本身作为微分方程,十分适用于执行涉及时间序列的任务,如模拟连续过程、处理缺失数据,以及适应不同的采样率。
③  Mamba 是 CMU 和 Together.AI 的研究者开发的模型,其重要创新是提出了「选择性 SSM」的架构,可以随上下文长度的增加实现线性扩展,在语言建模方面可以媲美甚至击败 Transformer。
④ 在 Mamba 之前,苹果和康奈尔的研究者也采用了 SSM 主干代替注意力机制,开发了 Diffusion State Space Model 架构。这种新架构可以使用更少的算力,媲美或超越具有注意力模块的现有扩散模型的图像生成效果,生成高分辨率图像。
⑤ 小八卦:截止 2024 年 1 月 26 日,根据 ICLR 2024 公开的结果,Mamba 的论文没有被大会接收,目前正处于 Decision Pending 状态,尚不明确是延迟决定还是被拒。[1]
RetNet 和 SSM 离开发下一代 AI 更近还是更远?
RetNet 与 SSM 同样被许多研究者扩展至视觉领域,相关工作涉训练的模型能够处理图像分类、目标检测、实例分割,乃至图像生成和视频生成等任务,但尚未发现这些工作中采用了视频数据进行训练。
继续阅读
阅读原文