MLNLP
社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
转载自 | 智源社区
编辑 | 李梦佳
每一项新技术诞生之初都会引发新一轮科技恐慌周期,近期大火的AI生成艺术更是如此。连线杂志创始主编、知名科技思想家凯文·凯利(Kevin Kelly)在6个月重度使用之后认为,这次AI进展的确是一次令人震惊的突破。但是,它不会取代人的工作,反而会像摄影代替人像画一样带来更多机会,可能有新的岗位和产业,比如以后不会画画但有丰富想象力的人可以用提示命令创作,就像自己不演戏的导演却可以创作伟大的电影。
更重要的是,AI绘画让我们思考:创造力其实不是某种超自然的力量,它可以被合成、放大和操纵。有了新的强大创造力工具,未来将会怎样?
Kevin Kelly
《连线》杂志(Wired Magazine)第一任主编;曾担任《全球评论》(Whole Earth Review)主编、出版人。常被称为“KK”,他是影响巨大的科技思想家,也是资深的摄影师。

1
『令人惊叹的AI生成艺术』

Lee Unkrich,皮克斯最杰出的动画师之一(奥斯卡获奖动画片《玩具总动员》、《寻梦环游记》等作品的导演),小时候最初接触电脑时,还以为只要输入几个简单的字比如「一张火车的照片」,就能出现相应的画面。而实际上那时候并没有这种魔法,各种图片都需要由勤劳的人类精心编程和渲染出来。
43 年后,他偶然发现了 DALL-E,按照人给出的文字提示,就像「一张火车的照片」这么简单,它真的可以生成很有原创味道的艺术作品。当他输入文字,创建一个又一个图片时,哇魔法实现了!「这感觉就像一个奇迹,」他说,「当生成的那些图片出现时,我屏住了呼吸,眼泪夺眶而出。真是神奇。」
是的,AI在艺术创作方面最近有了突破。我们曾经认为计算机是不会有创造力的,但突然之间,数以百万计的人现在正在使用一种新的 AI 来生成令人惊叹的、前所未见的图片。这些用户中的大多数都不像 Lee Unkrich 那样是专业艺术家,这就是重点:他们也不必是。不是每个人都能编剧、导演和剪辑像《玩具总动员 3》或《寻梦环游记》这样的奥斯卡奖获奖电影,但每个人都可以启动 AI 图像生成软件并输入想法。屏幕上出现的内容在其逼真度和细节深度方面令人震惊。画笔在手,人工智能已经成为创造惊奇的引擎。
这些 AI 从人类创造的数十亿张图片中学习,它们的输出很符合我们的期望。与此同时,它们又是神奇的人工智能,甚至对它们的开发者来说都是神秘的,它们又能以一种人类不可能想到的方式重组出新图片,填充我们大多数人都没有想象的艺术性的细节,更不用具体画出来了。还可以指示它们以我们想要的任何样式在几秒钟内生成我们喜欢的东西的更多变体。归根结底,它们最强大的优势是:可以创作出易于理解但同时又完全出乎意料的新东西。
事实上,这些新的 AI 生成的图像是如此出乎意料,以至于在惊叹之后的无声敬畏中,几乎所有遇到过它们的人都会想到另一个想法:人创作艺术的时代现在结束了。谁能与这些机器的速度、廉价、规模以及疯狂的创造力竞争?艺术是我们必须屈服于机器人的另一种人类活动吗?下一个显而易见的问题是:如果计算机是有创造力的,那么它们还能做什么我们之前以为它们做不到的事情?
在过去的六个月里,我用 AI 创作了几千张炫酷的图像,经常在无休止地寻找隐藏在代码中的更多美感的过程中失眠。在采访了这些AI的开发者、高级用户和其他早期采用者之后,我可以做出非常明确的预测:生成式 AI 将改变我们设计几乎所有事物的方式。但是,没有一个人类艺术家会因为这项新技术而失业。
将借助 AI 作画称为共同创作(cocreation)并不夸张。这种新能力的惊人秘密在于,它的最佳应用不是输入单个提示,而是人与机器之间长时间对话产生的结果。每幅画的进步都来自很多很多次的迭代、来回实验、迂回,以及数小时,有时甚至数天的多人团队合作——所有这些都得益于机器学习多年的进步。
人工智能绘画系统诞生于两种独立技术的结合。一个是深度学习神经网络的不断进展,可以生成连贯的逼真图像,另一个是可以作为图像引擎接口的自然语言模型。(译注:这里的描述不太严谨,AICG所使用的计算机视觉和NLP技术都是基于深度学习的,而且更重要的进展是基于Transformer的大模型的出现。)两者结合成语言驱动的图像生成软件。研究人员在互联网上搜索所有具有类似文本(比如图片标题)的图像,并使用数十亿个样本将图片与文字、文字与图片联系起来。通过这种新的组合,人类用户可以输入一串描述他们需要的图像的词,称作提示(prompt,类似命令),然后提示会根据这些词生成图像。
谷歌开创了扩散计算模型(译注:这么说不准确。扩散模型最早由斯坦福大学J Sohl-Dickstein等2015年提出,技术上有三个源头:2020年发表的加大伯克利Jonathan Ho等提出的DDPM,斯坦福大学宋飏等2019年提出的SGM和2020年提出的Score SDE。最早有影响的系统实现也不是谷歌,而是OpenAI的DALL-E第一版。),但出于各种顾虑,至今没有向公众开放自己的实验室生成器Imagen和Parti。目前,最受欢迎的是三家没有太多历史负担的初创公司绝非偶然:由David Holz发起的Midjourney,并衍生了新兴的艺术家社区,其AI接口是一个嘈杂的Discord服务器;OpenAI的DALL-E 2;今年8月,欧洲企业家Emad Mostaque创立的开源项目Stable Diffusion是开源项目,任何人都可以下载它的软件并在自己的桌面上本地运行,因此应用现在最广。(译注:其他机构还可以基于Stable Diffusion二次开发,这一点可能更重要。)目前,仅仅在Midourney、Stable Diffusion、Artbreeder 和 DALL-E这四种AI平台上,与 AI 合作的人类现在每天共同创作超过 2000 万张图像。

2
『AI生成艺术的疗愈性与实用性』

AI创造出这些图像的原因,与人类一直以来创造大多数艺术的原因一样:因为图像很美,值得人欣赏。
就像篝火的火焰一样,光影图案令人着迷。这是一种类似于探索电子游戏世界或者翻阅艺术书籍的乐趣。它们的创造力有一种真正的美,我们凝视它们的方式,就像我们欣赏博物馆里的一场伟大艺术展一样。
像任何艺术一样,这些图片也能起到治愈性的作用。人们花时间制作奇怪的人工智能图片,就像他们在周日作画,或在日记中涂鸦,或拍摄视频一样。他们用媒体来解决他们自己生活中的某些问题,表达某些无法用其他方式表达的东西。我见过一些图片,描绘了动物天堂的模样——是作者为了爱犬的死亡而创作的。许多图像探索了无形的、精神领域的表达,涵盖一种思考方式。「这很大一部分基本上是艺术疗法,」Midjourney创始人David Holtz(也曾是Leap Motion的联合创始人和CTO)告诉我,「从普遍意义上来说,这些图像并非真正具有美学吸引力,但在人们真实的生活背景下,它们就会以一种非常深刻的方式吸引人。」
AI生成的图片也可以是实用性的。假设你正在提交一份关于将医院塑料垃圾回收为建筑材料的可能性报告,而你想要一张用试管建造的房子图片。当然图片市场上可以去搜索由人类艺术家制作的可用图片,但是像这样独特的要求一般很少能找到现成的图像,即使找到了,其版权状况也可能堪忧或者很昂贵。而AI生成器可以在几分钟内为你的报告生成一张独一无二的、个性化的图片,你可以将其插入你的幻灯片、主页或博客中,这样做更便宜、更快,可能也更适合你,而且版权也是你自己的。
这种新的艺术介于绘画和摄影之间。它存在于一个和绘画一样宽广,与人类想象力一样广阔的空间里,而你则像一个摄影师一样在这个空间里穿梭,寻找新的发现。调整你的prompt(提示语),可能就会到达一个从没有人去过的地方,你可以慢慢探索这个区域。这个领域可能是一个主题,或一种情绪,一种风格。艺术的核心就在于找到一个新的领域,并将自己沉入其中,从而锻炼出良好的品味和敏锐的眼光。

3
艺术家如何应对AI生成艺术的恐慌?『』

每一项新技术诞生之初都会引发新一轮科技恐慌周期,总结来讲这一周期可分为七个阶段:
1.别让我看到这些垃圾,根本没用。
2.好吧,这东西确实发生了,但是很危险,因为效果并不好。
3.等等,它太好用了,我们必须得做点什么扰乱它!
4.这东西太强大了,对于那些无法触达它的人来说是不公平的。
5.现在它无处不在,无法逃离,这不公平。
6.我打算戒掉它,戒一个月。
7.让我们关注真正重要的问题ーー下一个会出现的东西是什么?
其中,第三级恐慌,正是一群精通艺术的艺术家和摄影师正在面对的,他们害怕其他人(但绝不是他们自己)会丢掉工作。Getty Images目前已经禁止了人工智能生成的图像;一些在 DeviantArt 上发布作品的艺术家们也提出了类似的禁令。相对善意的方式则是用标签来识别出AI生成的艺术,并将其与「真正的」艺术分开。
除此之外,一些艺术家希望保证他们自己的作品不被用来训练人工智能。但这是典型的3级恐慌。这些算法将触达60亿张附带文本的图像,如果你不是一个有影响力的艺术家,删不删除你的作品没什么区别——即使你是一个有影响力的艺术家,删除你的图片仍然没有关系。因为你的风格已经深深影响了其他人的作品,即使图片被删除,影响力依然在。就好比,即使我们把梵高的作品从训练集中删除,梵高的风格仍然深深植根于那些模仿他或受他影响的人所创造出的庞大图像海洋中。
艺术风格也可以通过prompt来限定,比如:「用梵高的风格」。一些艺术家不允许自己的名字被用在AI生成的prompt当中,这样就无法生成他们艺术风格的作品。(当然也可以通过把名字拼错,或者简单地用文字描述来绕过这种限制)

此外还有另外一个动机让艺术家们删除自己的名字——他们可能担心大公司会从他们的工作中赚钱,而他们的贡献却得不到补偿。毕竟我们不会因为人类艺术家对其他人类艺术家的影响而补偿他们。以大卫 · 霍克尼为例,他是当今收入最高的艺术家之一。霍克尼经常承认其他在世的艺术家对他的作品的巨大影响。但是我们不指望他能给影响他的打钱。
更重要的是,众所周知,影响链是模糊、短暂和不精确的。在艺术创造中,我们会潜移默化地受到周遭的影响,其影响的程度却无法量化。写备忘录或用手机拍照时,谁能说出海明威在多大程度上直接或间接地影响了我们?同样地,弄清楚AI生成艺术宇宙中的影响链也是不可能的。理论上,我们可以建立一个系统,把 AI 赚来的钱支付给训练集中涉及的艺术家,但是每位艺术家在60亿股中的实际补偿池中得到的将如此微不足道,以至于堪称荒谬。
在未来几年里,人工智能图像生成器中的计算引擎将继续扩展和改进,直到它成为可视化工作中的一个中心节点。它将成为一个视觉搜索引擎,一个图像理解的视觉百科全书,
目前,神经网络算法都依赖于大量的数据,但在未来十年,我们将拥有可操作的AI,它所依赖的学习实例要少得多,也许只有1万个。我们将教会更强大的AI图像生成器如何作画,向它们展示那些高度精选的现有艺术图像。当这一天到来时,各种背景的艺术家都将为了被纳入训练集而彼此争斗。主流艺术家的影响力会被所有人分享和感受,那些未被纳入的艺术家必须面对的困难不是盗版,而是默默无闻。

4
『提示的艺术:优秀的提示者就像电影导演』

同一个程序,那些累积了数千小时的算法的人们可以神奇地生成比普通人好很多倍的图像。这些大师的作品具有惊人的连贯性和视觉冲击力,充斥着大量细节。
这是一项团队运动,是人类艺术家和机器艺术家的二重唱。它不仅需要经验,还需要大量的时间和工作。就好像在 AI 上有一个滑动条: 一端是最大惊喜,另一端是最大服从。让AI给你惊喜是很容易的(这是我们经常要求的)。但是要让AI服从你就非常困难。
Mario Klingemann 以销售AI生成艺术作品的 NFT 为生,他说,「如果你脑海中有一个非常具体的图像,你总会感觉自己在对抗一个力场。」诸如「遮蔽此区域」、「增强此部分」和「淡化它」之类的命令让AI服从起来非常费力。好像必须要说服它一样。
当前版本的 DALL-E, Stable Diffusion, 和 Midjourney将prompt的长度限制在一条长推文的范围内。再长的话,文字就会混在一起——图像就会变成浆糊。这意味着每一个神话般的图像背后都有一个召唤它的简短魔法咒语。从第一段咒语开始,你就要斟酌措辞。你的直接结果将会在四到九张图片中显现出来。从那批照片中,你可以对后代图片进行变化调整。有了一个雏形,如果看起来比较满意,就可以开始朝着新的方向调整咒语,让它诞生更多代的图像。
在寻找最引人注目的构图时,要将这组图像反复「繁殖」,即使需要几十代,也不要感到绝望。你要像AI一样思考:它喜欢听什么?悄悄地告诉它过去的成功经验,并把它们加入到prompt中。如此重复,改变词序,看看它是否喜欢。记住,要具体,要不断重复。然后要毫不留情地进行选择,并开始描绘期望中的图像。如果 AI 不理解你的prompt,可尝试其他人使用的咒语。最后,将图像迁移到Photoshop进行最后的裁剪。别害怕重复,一个与众不同的图像即使需要50个步骤也不罕见。
这种新技术的背后是提示的艺术。每个艺术家或设计师都会开发一种方法,通过改进提示符来说服AI做到最好。我们将这些新艺术家称之为人工智能耳语者(AI whisperers),或者提示艺术家、提示者。
提示者几乎像导演一样工作,引导他们的「外星合作者」的工作走向一个统一的愿景。从人工智能中提取一幅一流图片所需的复杂过程,正在迅速成为一种精细艺术技能。PromptBase 是一个供提示者销售prompt的市场,这些提示可以创建简单的图像,如表情符号、标志、图标、头像和游戏武器,就像剪贴画一样,但他们不卖艺术品,而是卖产生艺术的prompt。
出于技术原因,即使重复完全相同的提示,也不太可能得到相同的图像,每个图像都有一个随机生成的种子。此外,同样的提示给不同的AI引擎会产生不同的图像ーーMidjourney偏油画风,而 DALL-E 则偏向摄影的真实风格。Robyn Miller,传奇游戏《神秘岛》的创造者,一位数码艺术家的先驱,每天都会发布一张人工智能生成的图片。「当人们问我使用了什么提示时,」他说,「并不想告诉他们。这是一门艺术,这也让我感到惊讶。」
在我看来,提示者显然正在创造真正的艺术。一个完美的电影导演,如希区柯克,如黑泽明,是一个演员、动作、场景和想法的完美提示者。从这个意义上讲,优秀的图像生成器提示者也在从事类似的工作。今年夏天,Jason Allen 利用 Midjourney 创作的作品「太空歌剧院」(Théâtre D'opéra Spatial),夺得科罗拉多州博览会艺术比赛头奖。这是一幅相当酷的图片。
利用 Midjourney 创作的作品「太空歌剧院」(Théâtre D'opéra Spatial)
Photoshop 和 Blender 等工具使艺术家能够从数字化的物体、纹理和部件库中获取信息,并将其拼贴在一起形成场景。它们不是画出来的;这些数字图像是不折不扣的技术组合。用AI来孕育拼贴画堪比一种自然的进化。作者告诉 Vice,「我一直在探索一种特殊的prompt。我已经用它创作了数百张图片,经过数周的微调和策划,选出了前三名。」
当然,这也敲响了警钟。对一些评论家来说,这是时代的终结,是艺术的终结,是人类艺术家的终结。可以预见的哀悼接踵而至,许多人指出,这对于苦苦挣扎的艺术家来说是多么不公平。AI不仅可能接管并杀死我们所有人,它们同时还会创造出世界上最好的艺术。

5
『展望与反思:创造力不是超自然力量,可被合成、放大和操纵。』

9月,三个新的文本转3D/视频图像的生成器接连发布: GET3D (Nvidia) ,Make-A-Video (Meta)和 DreamFusion (Google)。AI生成的2D 图片令人惊叹,但真正超能力是将生产3D 图像和视频。
一个未来3D引擎的prompt可能是这样的: 「创建一个十几岁孩子的凌乱卧室,墙上贴着海报,床铺还没整理,午后阳光透过百叶窗照射进来。」几秒钟之内,一个完整的3D房间就诞生了。同时,AI还可以使游戏、元宇宙和电影像小说、绘画和歌曲一样快速地制作出来。当大笔资金和专业人士配备这些新工具时,复杂程度空前的杰作将诞生。
到目前为止,AI生成器作为合作伙伴工作得很好。一个暴走的AI接管人类的噩梦也没有发生。这种设想从根本上来说是对历史的误读。技术很少直接取代人类从事他们想做的工作。智能手机出现后,每个人都是摄影师。原本预计摄影职业要下降了,然而事实上,美国摄影专业人士的数量一直在缓慢增长,从2002年的16万人(摄像手机之前)增至2021年的23万人。
与其惧怕AI,不如思考它教会了我们什么。而AI图像生成教给我们最重要的事情是: 创造力不是某种超自然力量,它是可以被合成、放大和操纵。事实证明,我们不需要为了孵化创造力而实现智能。创造力比我们想象的更加重要。它是独立于意识的。
学者们提到的创造力指的是所谓的「大写」创造力。大写的创造力是重大突破所带来的惊人的、颠覆领域的、改变世界的重构。想想狭义相对论,DNA发现,或毕加索的格尔尼卡。大写的创造力超越了单纯的创新。它是特别而罕见的。它以一种深刻的方式触动了我们人类,远远超过外星的AI所能理解的。
当然,这种高度的「大写」创造力不应该与大多数人类艺术家、设计师和发明家日复一日产生的创造力相混淆。平凡而普通的创造力可以是一个伟大的新标志设计或一个很酷的书籍封面,或我们最喜欢的科幻连续剧的场景。自古以来,大多数的人类艺术都是微小的,而这类微小的创意正是AI生成器所能提供的。
这是有史以来第一次,人类可以按需、实时、大规模、廉价地进行日常的创造性行为。「合成创造力」现在成了一种商品。古代哲学家可能要掀棺材板了,事实证明,要产生创造力--生成新的东西--你需要的只是正确的代码。我们可以把创造力应用于大型统计模型,或者嵌入到药物发现的例行程序中。
还能用合成创造力做什么?有点像中世纪的农民被问到: 「如果你的手指上有250匹马的力量,想做什么?」——显然无人知晓。但这是一种非凡的天赋,唯一所知的是,我们现在有了触手可及的创造力引擎,可以瞄准那些从未进行创造性变革的陈腐角落。新技术可能会瓦解溃败,但这种超能力可以帮我们无限期地延长惊叹值。如果使用得当,甚至可以在宇宙中制造一个小小的凹痕。
原文链接:https://www.wired.com/story/picture-limitless-creativity-ai-image-generators/
技术交流群邀请函
△长按添加小助手
扫描二维码添加小助手微信
请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。
继续阅读
阅读原文