在虚拟世界里探索，李飞飞的「具身AI」离大脑更接近了

新智元报道

编辑：David 如願

【新智元导读】李飞飞的「具身」AI，靠着探索世界，比传统AI更接近大脑！

2009年，当时还在普林斯顿大学任教的计算机科学家李飞飞发明了一个数据集，后来改变了人工智能的发展史。

该数据集被称为ImageNet，包括数以百万计的标记图像，可以训练复杂的机器学习模型来识别图片中的目标。

2015年，用这个数据集训练出来的机器，超过了人类的识别能力。不久之后，李飞飞开始寻找她所谓的另一颗「北极星」，推动人工智能走向真正的智能化。

靠训练让机器识图，还是没那么智能。她开始寻求与人类智能的起源更接近的方式。

她回顾了5.3亿年前的「寒武纪大爆炸」，并找到了灵感，当时，众多物种的陆生动物首次出现。有理论认为，新物种的爆发部分是由眼睛的出现推动的，眼睛可以第一次让动物看到了它们周围的世界。

李飞飞认为，动物的视觉从来都不是单独形成的，而是深深结合整个身体的过程中发生的，因为动物需要在快速变化的环境中移动、导航、生存，并做出改变。」

现在，李飞飞的工作更加侧重于AI智能体。与十几年前不同的是，这些智能体除了接受来自数据集的静态图像，还可以在三维虚拟世界的模拟中移动，并与环境互动。

这是一个被称为「具身AI」的新领域，该领域与机器人学的研究方向有诸多交集，因为机器人可以作为现实世界中具身AI智能体的物理等价物，在强化学习上，两个领域也有着共同的特征。

李飞飞和该领域的其他研究人员认为，「具身AI」带来的重大转变，是让AI从学习直接的能力，如识别图像，到学习如何执行类似人类的多个步骤的复杂任务，比如煎蛋卷。

今天，具身研究包括任何能够探测和改变自身环境的智能体。在机器人学中，AI智能体总是生活在一个机器人的身体里，但现实模拟中的智能体可能只有虚拟身体，或者只是通过一个移动的摄像机来感知世界，但仍然可以与周围环境互动。

「所谓「具身」的意义，其实不在于身体本身，而是与环境互动行为的整体需求和功能。」李飞飞说。

这种互动给了智能体一种全新的了解世界的方式。简单来说，过去是观察两个物体之间可能存在的关系，现在是自己进行实验并导致这种关系的产生。

有了这种新的理解，就会有更高的智能。随着新的虚拟世界的建立和运行，具身AI智能体已经开始兑现这一潜力，在新环境中取得了重大进展。

越来越完美的环境模拟

长期以来，研究人员一直想为AI智能体创造逼真的虚拟世界，但直到五年前，这个想法才开始成为现实。这要归功于电影和视频游戏行业所推动的图形化领域的技术进步。

2017年，AI智能体首次实现了在一个逼真的室内虚拟空间中实现了身临其境的居家感。

这个名为「AI2-Thor」的模拟器，由艾伦人工智能研究所的计算机科学家建造，让智能体在自然的厨房、浴室、客厅和卧室中漫步。

智能体周围的3D视图随着它们的移动而移动，当智能体停下来仔细观察时，又会展示出新的角度。

这样的「新世界」也让智能体有机会对新维度的变化进行推理：时间维度。

西蒙弗雷泽大学（Simon Fraser University）的计算机图形研究人员Manolis Savva认为：「这就是与以往的最大区别，在具身AI环境中......可以获得时间上连贯的信息流，而且可以控制。」

这些模拟世界现在已经足够逼真，可以训练智能体完成全新任务。现在的智能体不仅能识别目标，还能与之互动，比如拿起目标，并在其周围导航。这些步骤看似很不起眼，但对于任何智能体了解环境来说都是必不可少的。

2020年，虚拟智能体超越了视觉层面，听到了虚拟环境中发出的声音，用另一种方式了解世界。

当然，这并不是说这项工作已经大功告成了。

斯坦福大学的计算机科学家丹尼尔·亚明斯（Daniel Yamins）说：「即使是最好的模拟器，也远不如现实世界那么真实」。

与麻省理工学院和IBM的同事一起，Yamins共同开发了ThreeDWorld，把重点放在虚拟世界中模仿现实生活中的物理学--比如液体的行为方式

「这真的很难，挑战很大，但这足以让AI智能体开始以新的方式学习。」

比传统神经网络更接近大脑

到目前为止，衡量「具身AI」进展的一个简单方法是，将具身智能体的表现与在更简单的静态图像任务上训练的算法进行比较。

研究人员指出，这些比较并不完美，但早期结果确实表明，具身AI智能体的学习方式不同，有时效果确实比其前辈更好。

在最近的一篇论文中，研究人员发现一个具身的AI智能体在检测指定的物体时的表现更加准确，比传统方法提高了近12%。

艾伦人工智能研究所的计算机科学家、论文共同作者之一的Roozbeh Mottaghi说：「物体检测界花了三年多的时间才实现了这种水平的改进。方法仅仅是通过与世界的互动。」

还有论文表明，如果将具身AI智能体赋予有形的形式，并让它们只探索一次虚拟空间，或者让它们四处移动，收集目标的多个视图时，在目标检测任务中的表现也强于传统的训练算法。

研究人员还发现，具身AI的算法和传统算法在学习方式上有根本不同。

以神经网络为例，研究人员发现，具身AI智能体中的神经网络，在响应视觉信息时活跃的神经元相对较少，这表明每个单独的神经元有更大的余地选择响应哪些内容。

相比之下，传统AI智能体的效率要低得多，需要更多的神经元在大部分时间内处于活跃状态。

研究人员将具身和非具身的神经网络与活体大脑（小鼠的视觉皮层）中的神经元活动进行了比较，发现具身AI智能体与活体大脑的活动是最接近的。

不过研究人员也指出，这并不一定意味着具身AI更好，二者只是不同而已。

与物体探测论文不同的是，Clay和Lindsay在比较相同神经网络的潜在差异中，要让智能体执行完全不同的任务，所以可能需要工作方式不同的神经网络来完成各自的目标。

但是，虽然将具身神经网络与非具身神经网络进行比较是一种相对进步的衡量标准，但研究人员并不是真的会对如何提高具身智能体在当前任务中的表现感兴趣。

这项工作将继续进行，使用传统的训练方式。真正的目标是学习更复杂的、类人的任务，这也是研究人员最感兴趣的地方。

在短短几年内，由Meta AI研究主任、佐治亚理工学院计算机科学家Dhruv Batra领导的团队迅速提高了一种名为point-goal navigation的特定导航任务的性能。

一个agent会被放置在一个全新的环境中，并且必须在没有地图的情况下导航到相对于起始位置的目标坐标(「往北5米，往东10米的地方」)。

通过给agent一个GPS和一个指南针，并在Meta的虚拟世界，即AI栖息地中训练它，Batra表示：「我们能够在标准数据集上获得超过99.9%的准确性。」

这个月，他们成功地将训练结果扩展到一个更困难却更现实的场景，即agent没有GPS或指南针。该agent只能通过移动时看到的像素流来估计其位置，不过其准确率也达到94%。

Mottaghi说：「这是一个了不起的进步。然而，这并不意味着导航问题已经完全被解决了。」

在某种程度上，这是因为许多其他类型的导航任务需要使用更复杂的语言指令，比如「经过厨房去拿卧室床头柜上的眼镜」，其准确率仍然只有30%到40%左右。

但导航仍然是「具身AI」中最简单的任务之一，因为agent在环境中移动时不需要操作任何内容。

到目前为止，「具身AI」的agent还尚未掌握任何与对象相关的任务。一部分挑战在于，当agent与新对象进行交互时，它可能会出现很多错误，然后错误很可能会堆积起来。

目前，大多数研究人员通过选择只包含几个步骤的任务来克服这个问题，但大多数类人类的活动，比如烘焙或洗碗，需要对多个物体进行长序列的动作。若要实现这一目标，人工智能agent将需要更大的推动。

在这方面，李飞飞可能又一次走在了前沿，她开发了一个数据集，希望能像她的ImageNet项目为人工智能物体识别所做的那样，为「具身AI」做贡献。

她曾经为人工智能社区提供了一个巨大的图像数据集，用于实验室标准化输入数据，现在她的团队发布了一个标准化的模拟数据集，其中包括100个类似人类的活动，供agent完成，并且可以在任何虚拟世界中进行测试。

一旦agent成功完成了这些复杂的任务，李飞飞认为模拟的目的，就是为了在最终的可操作空间，即真实世界，进行训练。

李飞飞表示：「在我看来，模拟是机器人研究中最重要、最令人兴奋的领域之一。」

机器人的新前沿

机器人本质上就是一个具身「AI智能体」。

通过寄居在现实世界中的某种物理躯体，它们代表了最极端的具身AI智能形式。但许多研究人员现在发现，这些agent甚至能从虚拟世界的训练中受益。

Mottaghi说：「机器人技术中SOTA算法，比如强化学习，通常需要数百万次迭代来学习那些有意义的东西。」因此，训练真正的机器人去完成艰巨的任务，这可能需要若干年的时间。

但在虚拟世界中训练他们首先提供了比实时训练更快的机会，并且数千名agent可以在数千个具有细微差别的房间中同时训练。此外，虚拟训练对机器人以及机器人附近的人类，都更加安全。

2018年，许多机器人专家开始更重视模拟器，OpenAI的研究人员证明，将模拟技能转移到现实世界是可能的。他们训练一只机械手去操作一个只在模拟中见过的立方体。

最近的成功进展让无人机学会了如何在空中避免碰撞；让自动驾驶汽车实现跨城市测试；让具有四条腿的，像小狗一样的机器人在瑞士阿尔卑斯山完成一小时的徒步，这和人类所需要的时间一样。

在未来，研究人员还可能通过虚拟现实头盔将人类送入虚拟空间，从而缩小模拟世界和现实世界之间的差距。

英伟达机器人研究高级主管、华盛顿大学教授Dieter Fox指出，机器人研究的一个关键目标是制造出在现实世界中对人类有帮助的机器人。但要做到这一点，它们必须要先接触并学习如何与人类互动。

Fox说：「利用虚拟现实技术让人类进入这些模拟环境，使他们能够演示东西，并与机器人进行互动，这是非常了不起的事情。」

无论它们是存在于模拟世界还是现实世界，具身人工智能agent都在学习如何更像我们。

该领域同时在所有方面取得进展——新的世界、新的任务以及新的学习算法。

李飞飞表示：「我看到了深度学习、机器人学习、视觉甚至语言的融合。现在我认为，通过这一面向具身人工智能的登月或北极星计划，我们将学习AI的基础技术，从而真正实现重大突破。」

参考资料：

https://twitter.com/drfeifei/status/1417265544164646923

https://www.quantamagazine.org/ai-makes-strides-in-virtual-worlds-more-like-our-own-20220624/

继续阅读

阅读原文

关键词

任务

智能体

环境中

算法

数据集