AI生成艺术的底层原理：非平衡物理的扩散模型

导语

一把牛油果形状的椅子，熊猫在湖面上溜冰，袋鼠玩国际象棋，宇航员在火星上骑自行车...... DALL·E 2, Stable Diffusion 等图像生成模型可以根据输入文本，产生各种超乎想象的图片。这背后的原理，来自非平衡物理中的扩散模型。如果为高维图像空间中的像素添加噪声，像墨水在水中扩散，然后逆转这一过程，就可以从噪声中生成图像，得到出乎意料的图像组合。

为了探索复杂科学与人文艺术交叉领域，集智俱乐部正在主办“复杂科学与艺术”研讨会，汇聚各领域内的行动者与思想者——包括科学家、艺术家、学者及相关从业者，展开跨学科研讨，并合作产出。研讨会每月一期，持续至2023年6月。AI生成式艺术也是研讨会主题之一。欢迎感兴趣的朋友报名加入。报名入口及详情见文末。

关键词：AI 生成艺术，大型语言模型，扩散模型，非平衡热力学，人工智能

Anil Ananthaswamy| 作者

朱欣怡| 译者

梁金| 审校

邓一雪| 编辑

DALL·E2 是 OpenAI 创造的图像生成系统。让它描绘“金鱼在海滩上喝可口可乐”的图片，生成结果将完全是超现实主义的图像。程序在训练中会遇见海滩、金鱼和可口可乐的图像，但不大可能看到三种图像的直接结合体。然而 DALL·E2 可以组合这些概念，生成结果可能让超现实主义画家达利也感到骄傲。

DALL·E2是一种生成模型，它尝试使用训练集数据，生成在质量和多样性方面堪比原数据的新东西。这是机器学习中最困难的问题之一，要走到这一步十分艰辛。

第一种重要的图像生成模型使用的是被称为神经网络的人工智能方法，神经网络是由多层计算单元（即人工神经元）组成的程序。尽管这些模型能让图像质量变得更好，但并不可靠且难以训练。与此同时，一位对物理学充满热情的博士后研究员创造了一个强大的生成模型，这个模型沉睡良久，直到两名研究生取得技术突破，才使这个野兽复活。

DALL·E2 就是这样一只野兽。使 DALL·E2 及其竞争对手 Stable Diffusion 和 Imagen 能够成像的关键内因源于物理世界。支撑它们的系统是著名的扩散模型（diffusion model），它深受支配着流体和气体扩散等现象的非平衡热力学启发。OpenAI 的机器学习研究员宋飏表示，“有很多技术最初是物理学家发明的，现在在机器学习中非常重要。”

这些模型的强大功能震撼了工业界和用户。加州理工学院计算机科学家、英伟达机器学习研究高级总监 Anima Anandkumar 说：“对于生成模型来说，这是一个令人兴奋的时刻。虽然扩散模型创造的逼真图像有时会延续社会和文化偏见，但我们已经证明，生成模型对下游任务很有用，可以提高预测性人工智能模型的公平性。”

图1. DALL·E2 生成这些“金鱼在海滩上喝可口可乐”的图像。OpenAI 创建的这个程序可能从未遇到过类似的图像，但仍然可以生成它们。

1. 图像生成模型与概率

要理解如何将图像转化为数据，可以先从一个仅由两个相邻灰度像素点组成的简单图像开始。我们可以根据每个像素的阴影（从0表示全黑到255表示全白），用两个值来完全描述这个图像。我们可以用这两个值将图像映射为二维空间中的一个点。

如果我们将多个图像标绘为点，可能会出现簇——某些图像及其对应的像素值比其他图像出现得更频繁。现在想象一个在平面上方的曲面，其中曲面的高度对应于簇的密度。曲面绘制出图像像素的概率分布图。我们最有可能在曲面的最高部分下方找到单个数据点，而在曲面的最低部分找到的数据点很少。

现在，我们可以使用这个概率分布生成新图像。需要做的就是随机生成新的数据点，同时遵守一个限制，更多地生成高概率数据——这个过程被称为对分布“采样”。每一个新的点都是一个新的图像。

同样的分析也适用于更逼真的灰度照片，比如说每张照片有100万像素。不过现在，绘制图像需要100万个坐标轴，而不是两个。这些图像的概率分布将是复杂的100万+1维曲面。如果对该分布进行采样，将生成100万个像素值。将这些像素打印在一张纸上，图像看起来就很可能像原始图像。

生成模型面临的挑战在于：学习构成训练数据的某组图像的这种复杂概率分布。这种分布之所以有用，既因为它捕捉到了数据的全局信息，又因为研究人员可以结合不同类型数据（比如文本和图像）的概率分布，组成超现实的输出，如金鱼在海滩上喝可口可乐。Anandkumar 说：“你可以混合和匹配不同的概念...创造全新的、训练数据里也没有的场景。”

2014年，生成对抗网络（GAN）模型成为第一个能产生真实图像的模型。但是 GAN 很难训练：它们可能不能学习完整的概率分布，并且可能锁定在分布的子集来产生图像。例如，在各种动物的图像上训练 GAN，却可能仅生成狗的图片。

提出生成对抗网络（GAN）模型的论文（2014）
论文题目：Generative Adversarial Networks
论文链接：https://arxiv.org/abs/1406.2661

机器学习需要一个更稳健的模型。在物理学启发下，Jascha Sohl-Dickstein 将提供一个实例。

图2. Jascha Sohl-Dickstein 基于扩散原理开发了一套新的生成模型算法。| 来源：Asako Miyakawa

2. 扩散模型

在 GAN 诞生之际，Sohl-Dickstein 还是斯坦福大学大学的博士后，致力于生成模型的研究，同时对非平衡热力学很感兴趣。物理学的这一分支研究不处于热平衡的系统——在系统内部和系统-环境之间有物质与能量交换。

一个解释性的例子是，一滴蓝色墨水扩散到整个盛水的容器中。起初，墨水在空间一点形成一个黑色斑点。此时，如果要计算在容器的某个小体积内找到墨水分子的概率，需要一个概率分布能清晰地模拟墨水开始扩散前的初始状态。但这种分布很复杂，因此很难取样。

然而，墨水最终会扩散到水中，使水变成浅蓝色。这导致更简单、更均匀的分子概率分布，可以直接用数学表达式来描述。非平衡热力学描述了扩散过程中每一时刻的概率分布。最重要的是，每一步都是可逆的——只要步间距足够小，就可以从简单分布重新回到复杂分布。

图3. 图像生成模型受到扩散模型启发。| 来源：Samuel Velasco/Quanta Magazine

Sohl-Dickstein 利用扩散原理开发了一种生成模型算法。想法很简单：算法首先将训练数据集中的复杂图像转化为简单噪声——类似于从一滴墨水扩散成淡蓝色的水——然后教系统如何逆转这一过程，将噪声转化为图像。

下面是它的工作原理。首先，算法从训练集中获取图像。和前面一样，假设这100万个像素都映射到数域，我们可以将图像绘制成百万维空间中的一个点。该算法在每个时间步向每个像素加一些噪声，相当于墨水在一个小时间步的扩散。随着这个过程继续，像素值与它们在原始图像中的值的关系越来越弱，并且像素看起来更像是简单的噪声分布。(这个算法还在每个时间步向原点微移每个像素值。这种微调可防止像素值变得太大以致计算机无法轻松处理。）

如果对数据集中的所有图像都这样做，那么在百万维空间中，点的初始复杂分布（不易描述和采样）就会变成围绕原点的简单正态分布。Sohl-Dickstein 说：“一系列的转换非常缓慢地将数据分布变成一个大的噪声球。这个‘前向过程’创造的分布可以让你轻松采样。”

接下来是机器学习部分：将从前向过程获得的噪声图像输入神经网络，并训练它预测上一步获得的噪声较小的图像。一开始它会出错，所以需要调整网络的参数，这样它就做得更好。最终，神经网络可以可靠地将来自简单分布样本的噪声图像完全转变为来自复杂分布样本的图像。

训练后的网络是一个成熟的生成模型。现在，甚至不需要原始图像来执行前向过程：有简单分布的完整数学描述，可以直接从中采样。神经网络可以将这个样本（基本上只是静态的）变成与训练数据集中图像相似的最终图像。

Sohl-Dickstein 回忆起扩散模型的最初结果时说道：“当你眯起眼睛说‘那个彩色的斑点看上去像一辆卡车。’我就像这样，花了很久的时间盯着不同的像素形态，试图从中看出结构。当结果比之前更结构化时，我很兴奋。”

3. 结合扩散模型与大型语言模型

Sohl-Dickstein 在2015年发表了他的扩散模型算法，但比起 GAN 还相差甚远。虽然扩散模型可以在整个分布上进行采样，而且永远不会陷入只输出图像子集的困境，但图像结果看起来更糟，而且过程太慢了。Sohl-Dickstein说：“当时，这个模型并不令人惊喜。”

扩散模型论文（2015）
论文题目：Deep Unsupervised Learning using Nonequilibrium Thermodynamics论文链接：http://proceedings.mlr.press/v37/sohl-dickstein15.html

有两个学生，当时与 Sohl-Dickstein 都互不相识，他们把最初工作中的点点滴滴与像 DALL·E2 这样的现代扩散模型联系起来。第一个是宋飏，当时在斯坦福大学读博士。2019年，他和导师提出了一种新方法来构建生成模型，而不需要估计数据的概率分布（高维曲面）。相反，它估计的是分布的梯度（可以看成是高维曲面的斜率）。

宋飏发现，如果他首先用不断增加的噪声水平扰动训练数据集中的每一幅图像，然后用神经网络基于分布梯度预测原始图像，有效地去除噪声，可以让它的技术效果更好。一旦经过训练，他的神经网络就可以从简单分布中采样得到一个有噪声的图像样本，并逐步将其转换回代表训练数据集的图像。图像质量很好，但机器学习模型的采样速度极慢。而且他做这件事时，对 Sohl-Dickstein 的工作一无所知。宋飏说：“我当时根本不知道扩散模型，2019年我们的论文发表后，我收到了一封来自 Jascha 的邮件。他指出，（我们的模型）有非常强的联系。”

估计数据分布梯度的生成模型（2019）
论文题目：Generative Modeling by Estimating Gradients of the Data Distribution
论文链接：https://proceedings.neurips.cc/paper/2019/hash/3001ef257407d5a371a96dcd947c7d93-Abstract.html

图3. 宋飏帮助提出了一种新的技术：通过训练网络有效地解读有噪图像，从而生成图像。

2020年，第二个学生看到了这些联系，意识到宋飏的工作可以改进 Sohl-Dickstein 的扩散模型。Jonathan Ho 最近刚刚在加州大学伯克利分校完成了他的关于生成模型的博士工作，但他仍致力于此。他说：“我认为这是机器学习中最有数学美的分支学科。”

Ho 结合宋飏的一些想法和神经网络领域的其他进展，重新设计并更新了 Sohl-Dickstein 的扩散模型。他说：“我知道，若要引起大家的关注，我需要让模型生成好看的样本。我确信，这是我当时能做的最重要的事情。”

他的直觉是正确的。2020年，Ho 和同事发表了一篇名为 Denoising Diffusion Probabilistic Models（去噪扩散概率模型）的论文，宣布了这个新改进的扩散模型。它很快成为一个里程碑，现在被研究员们简称为 DDPM。根据一个基准的图像质量——比较生成图像分布与训练集中图像分布——这些模型与包括 GAN 在内的所有竞争生成模型相比，不相上下，甚至更优。没过多久，大佬们就注意到了。目前，DALL·E 2, Stable Diffusion, Imagen 等商业模型都使用了 DDPM 的一些变体。

去噪扩散概率模型（2020）
论文题目：Denoising Diffusion Probabilistic Models
论文链接：https://proceedings.neurips.cc/paper/2020/hash/4c5bcfec8584af0d967f1ab10179ca4b-Abstract.html

图4. Jonathan Ho 和他的同事结合 Sohl-Dickstein 和宋飏的方法，使得 DALL·E 2 等现代扩散模型成为可能。

现代扩散模型还有一个关键成分：大型语言模型（large language models, LLM），如 GPT-3。这些生成模型在互联网文本上进行训练，用来学习文字而不是图像的概率分布。2021年，Ho（现在是一家隐形公司的研究科学家）和他在谷歌研究中心的同事 Tim Salimans，与其他地方的团队合作，展示了如何结合大型语言模型的信息与图像生成扩散模型，用文本（比如“金鱼在海滩上喝可口可乐”）指导扩散过程，从而生成图像。如 DALL·E2 这样的从文本到图像模型成功的背后原因，就是这种“引导扩散”（guided diffusion）过程。“他们远远超出了我最疯狂的期望。我不能假装我预见到了这一切。”Ho说。

结合大型语言模型与图像生成扩散模型（2021）
论文题目：Variational Diffusion Models
论文链接：https://proceedings.neurips.cc/paper/2021/hash/b578f2a52a0229873fefc2a4b06377fa-Abstract.html

4. 生成模型也会生成问题

尽管这些模型已经取得了成功，但 DALL·E2 及其同类产品的图像仍然远非完美。大型语言模型可能在生成文本中反映文化和社会偏见，如种族主义和性别歧视。这是因为它们训练的文本是从互联网中截取出的，这些文本往往包含种族主义和性别歧视的语言。基于这种文本的概率分布训练出的大型语言模型会被同样的偏见所感染。扩散模型的训练图像也来自互联网上未经整理的图像，这些图像可能包含类似的有偏见的数据。难怪将大型语言模型与当今的扩散模型结合起来，有时会产生反映社会弊病的图像。

Anandkumar 对此有亲身体验。当她试图用一个基于扩散模型的应用程序生成自身风格的头像时，她被震惊到了：“很多图片都是高度性感的，但呈现给男人的东西却不是。”这并不是个例。

通过整理和过滤数据（鉴于数据集的规模巨大，这项任务极其困难），或者检查模型的输入提示和输出，可以减少这些偏差。Ho 说：“当然，没有什么能代替细致和广泛的安全测试，这是该领域面临的重要挑战。”

尽管如此，Anandkumar 还是相信生成模型的能力。她说：“我很喜欢费曼（Richard Feynman）的名言：‘我无法创造的东西，我并不理解。’”随着理解的加深，她的团队能够开发生成模型，生产例如用于预测任务的欠表示类的合成训练数据，如面部识别时的较深肤色，以帮助提高公平性。生成模型还可以让我们深入了解大脑如何处理噪音，或者大脑如何唤起心理意象并思考未来的行动。建立更复杂的模型可以赋予人工智能类似的能力。

Anandkumar 说：“我们才刚刚开始探索生成 AI 的各种可能性。”

原文链接：
https://www.quantamagazine.org/the-physics-principle-that-inspired-modern-ai-art-20230105/

►►►

复杂科学×艺术系列研讨会公开报名中

20世纪下半叶以来，受到复杂性研究启发的“思维方式”已迅速传播到认知活动的多个领域。混沌、自组织、临界、自创生、涌现 ……其概念层次的丰富性为我们提供了研究世界的灵活工具。从这个意义上说，我们有理由将复杂性理论视为一个扩充艺术与科学之间交叉领域的重要课题。艺术对复杂性做出反应的一种基本方式是创造出显示“涌现行为”的系统。就本体论而言，我们不再将艺术品视为静态之物，而是将其看作不断发展的创造性过程的一个实例。同时，新兴的复杂科学（Complexity Science）也向当代艺术实践者提供了一个敞开的工具箱，这些工具包括混沌、分形、元胞自动机、遗传算法、蚁群算法、人工神经网络、L-System、人工生命等，它们进一步推动了数字美学、生物艺术与人工智能艺术等领域的发展。复杂科学不仅帮助我们深入了解意识和生命系统的生成机制，而且有利于激发各学科的研究者和实践者协同发掘后人类创造力和新美学的潜力，以期打开更趋向于综合性的创意空间。

由集智俱乐部主办，心识宇宙研究院院长、科普作家十三维，艺术评论人汪嫣然和策展人龙星如联合发起的“复杂科学与艺术”研讨会，旨在汇聚各领域内的行动者与思想者——包括科学家、艺术家、学者及相关从业者——展开超越单一学科的跨界知识讨论，探索复杂性研究与人文艺术潜在的交叉地带。本研讨会从2022年7月开始，每月举办一次，共计十二期。欢迎感兴趣的朋友报名参与，可加入社群并获得视频回放。

研讨会详情与框架：

Chaos & Muses：复杂科学×艺术系列研讨会

推荐阅读

点击“阅读原文”加入复杂科学与艺术研讨会

继续阅读

阅读原文