李飞飞对话英伟达首席科学家：Sora 可以生成电影，但无法替代宫崎骏创造的感动

在昨晚备受瞩目的 GTC 炉边谈话中，李飞飞与英伟达首席科学家 Bill Dally 围绕 AI 的发展、人类在 AI 时代的角色定义、李飞飞的新书等话题展开了令人触动的对话。

Bill Dally（左）与李飞飞（右）

如果说去年的 GTC 炉边谈话，黄仁勋与 OpenAI 首席科学家 Illya 进行的是一场对技术未来的漫谈，那今年这场炉边谈话就是李飞飞对人类未来的呼吁。

在对话中，李飞飞讲了个故事：在她完成自传《我看到的世界》的初稿后，她的好朋友，哲学家、斯坦福以人为本 AI 研究院联合主任 John Etchemendy 看了后建议她去重写。

他说很多人都在写关于 AI 的书，但李飞飞有一段独特的历程，能代表很多觉得自己在 AI 领域没有发言权或找不到认同感的人——包括移民、年轻女性、各行各业的人，他们不一定是典型的硅谷 AI 人士，如果李飞飞可以给他们传达一个声音,这将带来更多力量。

确实，李飞飞广为人知的一面是斯坦福大学终身教授，美国工程学院院士，AI 视觉领域的顶尖专家，被业内称为 AI 教母。

而她个人的另一面则是出生在北京，长于四川，直到 12 岁才随双亲前往美国，还因生活拮据不得不去餐馆打工赚取生活费。这就是 John Etchemendy 提到的关于李飞飞的“独特的经历”。

《我看见的世界：李飞飞自传》（封面暂定）

在整场对谈中，李飞飞都在用一种很独特的视角来思考 AI 的影响和发展，给在 AI 时代失语的普通人发声。在李飞飞看来，所有 AI 的发展都是关于人，关于具体的人。

这是一种更有人文情怀的，更具社会责任，也更女性细腻的视角。正如她在自传《我看见的世界：李飞飞自传》中所展现出的力量一样。

以下文章整理自 2024 GTC 炉边访谈：

相信 AI 会带来好的未来

Bill Dally：欢迎大家，感谢来到 GTC。我相信大家和我一样，都对李飞飞教授要说的话充满期待。你是斯坦福以人为本 AI 研究院（HAI Stanford）的联合创始人。到目前为止，你认为 AI 对人类影响最大的领域是什么？你认为未来 AI 将在哪些领域产生最大影响？

李飞飞：这是一个非常宏大的问题。首先，非常荣幸受邀来到 GTC。AI 目前对人类的影响是什么？我认为 AI 可能是 21 世纪最深刻的技术，它正在改变我们的生活、工作和未来。AI 是一种智能技术。在这之前，人类的技术发明大多停留在不涉及智能的层面，无论是发明工具让我们走得更快、飞得更高，还是发明工具让我们能看到人眼看不到的东西，这些都还是机械性的。但 AI 的发明，如理解语言、翻译语言、做决策、发现模式等，这些都是人类的基本能力，而现在都受到了这项深刻技术的挑战。所以在我看来，AI 的影响是对人类的本质、能力和定义的深刻影响。

在我担任谷歌云首席科学家时，我就看到商业分析是 AI 的一大应用领域。在医疗、交通、教育、软件工程等领域，AI 的影响将是无边无际的。

Bill Dally：一些业界名人如埃隆·马斯克和山姆·奥特曼认为 AI 可能对人类构成生存威胁。你怎么看？你认为 AI 可能带来的最大风险是什么？

李飞飞：我认为这是一个合理的问题。作为大学里的人，尤其是在大学校园工作，我们应该被允许提出各种问题，包括 AI 是否对人类构成生存威胁。从智力角度来说，这是一个重要的关于未来的问题。

作为一个物种，人类应该认识到，我们发明的一切，不仅是 AI，还包括我们正在改变地球的方式，改变我们与环境的关系的方式，都需要我们审慎对待。但就 AI 而言，我更关注更直接和紧迫的灾难性风险。你提到的一些风险是深层次的社会问题。例如，AI 可能因为错误信息而影响民主，可能取代工作或改变劳动力市场格局，可能影响我们与数据的关系、隐私和公平性。如果我们不能很好地管理这项技术的应用，所有这些都可能带来灾难性的社会风险。

Bill Dally：你最近写了一本关于 AI 的科学回忆录《我看见的世界：李飞飞自传》，我这里有一本。大家现在应该都从亚马逊上订购这本书。你能告诉我们一些关于这本书的情况吗？你为什么要写这本书？

李飞飞：《我看见的世界：李飞飞自传》，这本书是一本科学回忆录。就像你说的，我把“科学”这个词放在第一位。这本书有一个双螺旋结构，通过我作为一名计算机视觉科学家的视角讲述了 AI 的发展历程。我看到智能在自然界的进化始于对世界的感知。在过去十几年里，AI 的进化，特别是深度学习的历史，与计算机视觉这个领域的进化紧密交织在一起。所以这本书讲了 AI 在过去十年左右的发展历程，同时也与一个年轻科学家的个人成长历程交织在一起。

我之所以觉得有必要写这本书，是因为我被要求写一本关于 AI 的科普书，我确实花了一年时间写了一本只关于 AI 的书。但我们的好朋友 —— 哲学家、斯坦福以人为本 AI 研究院联合主任任 John Etchemendy 看了我的初稿，基本上说我应该重写。我当时非常沮丧。他说很多人都在写关于 AI 的书，但你有一段独特的历程。你代表了很多觉得自己在 AI 领域没有发言权或找不到认同感的人。这些人包括移民、年轻女性、各行各业的人，他们不一定是典型的硅谷 AI 人士。如果你能给他们一个声音，这将更有力量。因此，我把这本书的结构改成了双螺旋结构。

Bill Dally：非常有趣。AI 的发展历程与你作为一名科学家的成长历程交织在一起。假设 AI 在十年后变得成熟的话，如果你要为这本书写一个续集，你认为它会是什么样的？

李飞飞：首先，我不认为我想写续集。如果我要为这本书写续集，我想写一个人类胜利的故事。我要讲述我们如何利用这项技术让生活和工作变得更好。我这么说并不是出于盲目的乐观，因为我知道世界非常复杂。对年轻人来说，这个世界有时甚至感觉有点反乌托邦。但如果你看人类文明的发展历程，它是很长的。正如马丁·路德·金所说，如果我们能以正确的方式使用技术，人类文明的弧线是朝着正义、希望、仁爱的方向发展的。

就像在这次 GTC 大会上，我们只是看到了（技术改变生活的）冰山一角。我们看到了如何利用这项技术改变医疗，从药物发现到个性化治疗再到医疗服务。我们才刚刚开始思考教育如何从根本上被改变，因为突然之间我们有了一个教学助手，可以进行深度个性化学习和教学。我们看到，科学发现可以在强大的机器和认知助手的帮助下加速，这些助手可以真正加速人类已经进行了数百年的科学发现过程。所有这些都给了我们希望之光，希望我们在五到十年内能利用 AI 寻找气候解决方案，普及医疗服务，照顾好地球和我们自己。

如果我要写续集，我想写的就是这些。

AI 永远无法替代人性感知

Bill Dally：非常令人兴奋的未来似乎已经到来。我们已经看到模型从早期 ImageNet 时代的 ContralNets，到用于语言的 RNN，再到 Transformer，发展得非常快。接下来会是什么？或者你认为未来我们的主导网络模型会是什么？

你认为基础模型是会出现在世界层面上？也就是说我们可以问它任何关于世界的问题，而它会以多模态四维格式回答我们吗？

李飞飞：目前最新的是扩散模型。但我认为，首先，我继续相信数据的缩放定律（Scaling Law）。我认为我们还没有看到这方面的终点。关于我们是否已经看到了语言数据的极限有很多猜测，但我不知道答案，因为我不从事语言领域的工作。

从根本上说，语言是一个一维结构。而我从事视觉工作。它从根本上是三维的。如果加上时间，就是四维的。三维结构要丰富得多，但也复杂得多。

当我们用大数据进行扩展时，如果是完全盲目的扩展，那么我想英伟达会很高兴，你们会卖出更多芯片。但我想看到的是结构化建模，或着说偏向于三维感知和结构的模型与大数据相结合。我认为，要真正创造出空间智能，创造出我们今天仍然缺乏的世界模型。

我确实认为基础模型会出现在世界层面。我认为你不需要只是问它问题。这是一种以语言为中心的交互方式。我认为实际上你应该可以与它互动。

看看人类，或者生物体，作为一个计算机视觉人，我想提醒大家一件事，自然花了 5.4 亿年的时间来创造感知大脑。而创造语言，大脑只花了几十万年。所以感知是非常非常深刻的。

Bill Dally：这是一个很好的观点——感知领先语言几百万年。或者说感知更难，所以需要更长时间。人们对 AI 的一个担忧是它会扰乱就业市场。你可以说它会创造就业机会，也可能使其他工作变得不那么重要。你认为什么样的人类工作是 AI 或机器人永远无法取代的？

李飞飞：这是一个很棒的问题，也是一个危险的问题。自人类文明伊始，我们的祖先想象过的每一种工作基本上都是由机器协作完成的，像移动、飞行、计算等等。

工作的定义是什么？如果工作是一项任务，比如抓起某样东西或做一个煎蛋，我想它会被机器完成。但如果工作是人性的一部分，是定义我们创造力的一部分，定义我们的独特性，定义我们的意图、我们的同情心、我们与他人独特的情感联系，以及我们每个人对他人或对社会可能产生的独特贡献，那么我认为这些永远不会被完全取代。我们会利用机器来帮助我们更好地完成这类工作。我没有看到一个根本性的取代。

让我们再次回到医疗保健领域，我花了几十年时间在医院里照顾我年迈的父母。每次我带着父母走进病房，我都会看着人类照顾人类，或者人类需要人类来照顾人类。在这种关系和互动中有一些非常深刻的东西，是任何机器人、AI、电脑、AR/VR，或者你认为的任何下一代技术都无法完全取代的。

在人性方面，在人与人的互动方面，有太多超越了计算、计算、机械的东西，我认为这些将是会保留下来并不断演变的工作。我们将越来越多地被机器赋予超能力，但作为人类的核心不会被取代。

Bill Dally：刚才你讲到了人类的同理心、情感联系、关怀还有创造力。创造力是人类的核心特质，但如果我们选择训练 AI 模型具有这些特征，我们能做到吗？我们可以建立有同情心的 AI 模型，让它能够在情感上与人联系吗？

李飞飞：在某种程度上可以。我再次强调一下，我从事计算机视觉工作。现在已经有了深度创造性的文本到图像以及文本到视频的生成（模型）。但我也认为，就像这里没有人能预测下一个爱因斯坦会是谁一样，这种创造力以及创造力的不确定性，将永远存在于我们人类社会中。所以无论你如何训练机器，你都无法训练出人类的智能或人类创造力。

这不仅仅是爱因斯坦，还有贝多芬、莎士比亚、梵高。还有太多太多了。而且不一定非要是那么聪明的人。我自己的孩子，我不认为任何机器都能创造出那样一个甜美、聪明、幽默的小家伙。

Bill Dally：这是独一无二的人性，机器永远无法取代。说到创造力，生成式 AI 正在做一些了不起的事情。OpenAI 最近推出了 Sora，你可以输入一个提示，就能得到一个看起来很棒的视频。也许当你在十年后写自传的续集时，是否会发展到如果你想看一部电影，只需写几行提示，它就会为你生成一部两小时的电影？

李飞飞：我不认为这需要十年，多生产一些 B200，它很快就会出现。就技术而言，我认为这即将到来——创建更长时间的生成性世界、生成性故事情节、生成性角色互动的能力指日可待。

Bill Dally：在这样一个世界里，我们有 AI 程序生成大部分内容，那些在好莱坞或游戏工作室等地方的人类内容创作者的角色是什么？

李飞飞：这又回到了人类的独特性。我不知道你们中有多少人是宫崎骏、吉卜力工作室的粉丝。他们是最棒的，我就是喜欢一遍又一遍地看他们的电影。从计算机图形学的角度来看，它相当初级，他们不做皮克斯和梦工厂那样的（复杂）图形。然而那些独特的故事，比如《龙猫》的故事多简单，那部电影中人性的表达那么单纯，除了宫崎骏，没有人能创造出那样的东西。我认为这仍然是人性。AI 会创作电影，会创作娱乐人们的内容，但只有人，能利用 AI 创作那些能触动他人、启发他人或服务他人的内容，AI 做不到。我确实看到了这种共生的可能性。

「我」在 AI 时代的角色是什么？

Bill Dally：你的意思是 AI 基本上会接管这些创意事物的制作部分，制作真正引人注目的视频，让图像看起来很棒。但最终在情感层面上与人联系，去讲述一个能让人流泪的故事，这将是人类应该努力的部分。

李飞飞：没错。这也是我一直强调的一点，就是在这个机器时代，不要忘记我们的人性，不要忘记我们的尊严，不要忘记彼此的尊严和人性。这就是我们的核心，这就是我们的独特之处。这也是我们构建机器应用、使用机器的开端。

Bill Dally：你还有什么想传达给观众的吗？

李飞飞：我想说的一点是，GTC 是一个特别的会议。你们来到这里，是因为你们都以某种方式参与了 AI。

当我写出《我看到的世界》这本书并与全球各地的观众，特别是年轻观众交谈时，我经常被问到的一个问题。而每次有人问这个问题，我仍然会被触动——那就「我」在这个 AI 时代的角色是什么？

比如我，我不是计算机科学家，也不是斯坦福大学的理科专业；我不做软件工程，我不在有电脑的家庭长大的。我热爱跳舞。但所有这些来自各行各业的人都在问我，他们会在 AI 时代扮演什么角色。

因为 AI 看起来如此复杂，它有 7000 亿个参数，你怎么用自己的大脑来理解这么庞大的东西呢？然后是所有这些花哨的词，Transformer、生成式、扩散式，它们似乎离你每个人都很遥远。

但我真的想把它归结为：它是一个工具。它是一个需要一些数学和计算来实现的工具。但归根结底，人类不仅是工具的创造者，我们也是如何使用工具的决策者；我们是工具应用的创造者，我们也是工具的用户；我们是决定如何管理工具以及管理想要使用工具的人的选民。所以在参与 AI 方面有很多公民的可能性。

我特别希望年轻人，那些热爱艺术、热爱社区、热爱法律、热爱医学、热爱化学的人，无论你的兴趣是什么，都能以负责任的态度拥抱这项技术，你们实际上可以为让它变得更好、更好地使用它而有所作为。

这真的是我对每个人的恳求——你们在 AI 发展中是占有一席之地的，请加入我们，让 AI 变得更好。谢谢！

责编：沭七

出品：AI 科技大本营（ID：rgznai100）

继续阅读

阅读原文