别生气，他真的不是人！

大家好，我是 Jack。

你永远都不知道，队友是谁，在用什么和你玩游戏。

玩家不一定都是人类，AI 也会玩，我之前就发过类似的文章和教程：

用自己训练的AI玩王者荣耀是什么体验？

AI全自动钓鱼，原神游戏沦陷！

玩游戏遇到坑货，大家千万别生气，它可能真的不人！

最近 OpenAI 又有了新动作，让 AI 玩《我的世界》。

整理自：机器之心、新智元 | 编辑：Jack Cui

《我的世界》是全球知名度最高的开放世界游戏。小朋友只需观看十分钟的教学视频，就能学会在游戏中寻找稀有的钻石，但这却是 AI 此前无法企及的高度。

OpenAI 的研究团队宣布他们开发了一种能玩《我的世界》的智能体，新发布的视频预训练模型大显神通。

在其基础上进行微调，训练的模型可以学习制作挖矿工具，熟练的人类玩家在 20 分钟内可以完成这个任务（24000 次操作）。OpenAI 的模型使用按键和鼠标移动控制人机界面，这使得该模型非常通用，这向通用计算机使用智能体迈出了一步。

这个东西吧，看似简单，但对AI来说却非常困难。

我们先看下训练模型的效果，模型建造一个简陋的木制避难所：

制作石镐:

在村庄里搜寻：

VPT方法

视频预训练模型，VPT。

https://cdn.openai.com/vpt/Paper.pdf

这东西说新也新，但是却并不复杂，是一种半监督式的模仿学习方法。

首先，收集一波数据标注外包们玩游戏的数据。

其中不仅记录了玩游戏的视频，还记录了玩家采取的行动，即按键和鼠标的移动。

利用这些数据，该研究训练了一个逆动力学模型 (IDM)，以预测视频中每个步骤所采取的动作。

重要的是，IDM 可以使用过去和未来的信息来猜测每一步动作。与仅给定过去视频帧预测动作的行为克隆任务相比，这种任务要容易得多，需要的数据也要少得多。

然后该研究使用经过训练的 IDM 来标记更大的在线视频数据集，并通过行为克隆来学习行动。

该研究选择《我的世界》这个游戏中验证了所提方法，因为它 (1) 是世界上最流行的视频游戏之一，拥有大量可免费获得的视频数据，并且 (2) 是开放式的，可以提供各种各样的行为动作，类似于现实世界的应用程序（如计算机使用）。

与之前的工作在《我的世界》中使用简化动作空间不同，OpenAI 的新模型使用更普遍适用、难度也更大的原生人机界面：鼠标和键盘使用 20Hz 帧率。

该研究的行为克隆模型（VPT 基础模型）使用 70000 小时的 IDM 标记在线视频进行训练，在《我的世界》中完成了强化学习几乎不可能实现的任务。

新模型学会了砍树收集原木，将原木制作成木板，然后将木板制作成箱子；这个行为序列对于《我的世界》高级玩家在约 50 秒内执行 1000 个连续的游戏动作。

此外，该模型还可以执行人类在游戏中经常执行的其他复杂技能，例如游泳、狩猎动物、食用食物以及一些《我的世界》专用技能。

用行为克隆进行微调

基础模型旨在具有广泛的行为特征，并且完成各种任务。为了整合新知识或让他们专注于更具体的任务，通常的做法是基于更小、更具体的数据集对模型进行微调。

那么，VPT 基础模型如何微调到下游数据集呢？OpenAI 让人类玩家在最新版《我的世界》中玩了 10 分钟，并用基本的材料建造房子。OpenAI 希望这能增强基础模型执行早期游戏技能的能力。结果表明，基础模型在可靠执行早期游戏技能方面有了巨大进步，而且微调后的模型还掌握了制作石器等新技能。

数据扩展

也许该研究中最重要的假设是，使用标记的 contractor 数据训练 IDM（作为 VPT pipeline 的一部分）要比直接从同一个小型 contractor 数据集训练 BC 基础模型有效得多。为了验证这一假设，研究者不断增加数据量来训练基础模型，数据量规模从 1 小时增加到 70000 小时。他们将训练分为两个部分，如下图虚线所示，训练数据时长以 2000 为分界线。

基础模型训练数据对微调的影响：从图中可以看出，随着基础模型数据的增加，模型制作能力随之增加，只有在最大的数据规模下，我们才会看到石器工具制作的出现。

通过强化学习进行微调

当指定的奖励函数足够好时，强化学习便能够成为一种强大的方法去激发更高的，甚至是超人类的表现。VPT 模型和 RL 搭配更好，因为模仿人类行为可能比采取随机行动更有帮助。该研究设置了一些模型挑战任务，即收集钻石鹤嘴锄，这是在《我的世界》中前所未有的能力。

制作一把钻石鹤嘴锄需要一长串复杂的子任务。为了使这个任务易于处理，该研究会奖励序列中的每一项智能体。

该研究发现，从随机初始化（标准 RL 方法）训练的 RL 策略几乎没有获得任何奖励。与之形成鲜明对比的是，VPT 模型的微调不仅可以（它在 10 分钟的《我的世界》中有 2.5% 会这样做），而且它在收集所有物品以获得钻石镐方面的成功率甚至达到了人类的水平。这是人类首次展示计算机智能体能够在《我的世界》中制作钻石工具，而人类平均需要 20 多分钟（24000 次操作）。

VPT 让智能体通过观看互联网上的大量视频就可以进行学习铺平了道路。

与只会产生表征先验的生成视频建模或对比方法相比，VPT 提供了在更多领域可以直接学习大规模行为先验的可能性。

虽然该研究只在《我的世界》中进行实验，但该游戏开放的，并且原生人机界面（鼠标和键盘）非常通用，因此这项研究也会给其他领域带来益处。

此外，该研究还开源了数据、《我的世界》所需环境、模型代码、模型权重，他们希望这些开源有助于未来 VPT 的研究。

刚刚开源没几天，感兴趣的小伙伴，可以去看下。

项目地址：

https://github.com/openai/Video-Pre-Training

絮叨

对了，我的 B 站粉丝 30 万了，感谢小伙伴们一路以来的三连支持。

B 站发了动态，抽奖送 30 本书，非常适合入门，涵盖很全面：

感兴趣的小伙伴，可以参与下：

https://t.bilibili.com/675922191916728342

今天就聊这么多吧，我是 Jack，我们下期见！

·················END·················

别生气，他真的不是人！

VPT方法

用行为克隆进行微调

数据扩展

通过强化学习进行微调

絮叨

推荐阅读