浅谈 Midjourney 等 AI 绘图工具的使用技巧，及社群带来的价值

上周更新的关于AI画图的思考收到了不少读者的讨论，这周我们继续展开说说它的使用技巧和背后社群带来的价值。

在官网的描述上，Midjourney 把自己定位成一个实验室，并非艺术工作室，而是专注于探索能赋予人们新能力的媒介和工具。这个实验室极其低调，对外的资料很少，官网也只有一个 Discord 的入口而已。目前已经知道的是 DiscoDiffusion 的创造者之一 Somnai^[1] 在其中工作。

Midjourney 有两部分是比较有趣的，一部分是算法效果本身，另一部分是架设在 Discord 上的社区，接下来单独来讲：

一张画的背后，是理解和技法，最终是数学

作为一个曾经学了很多年美术的人，可以说看到这些效果时被震撼的说不出话来。这种感觉就像习惯了在物理世界在暗房中冲洗和修改照片的人，突然看到了 Photoshop 的那种震撼 —— 因为之前的许多习惯和努力，或许都要重新再思考。

这并不是否认绘画的价值，而是一种思维方式的转变。我曾经在 09 年做了一年的美术外包，客户是外国人，基本上拿到的需求是这样的：一个会魔法的精灵族的房屋，波斯风格，需要有长廊和二层楼，魔法师在这里学习魔法。下面就是我们根据这段简单的的描述和参考了对方给的资料，加上自己一些脑补绘制的效果图。

如果再把这个过程拆解，其实这段文本背后依赖于大量的资料查找，比如「波斯」，比如「精灵」，比如「魔法」，每个文本背后都隐藏着数不清的概念，需要创作者从中选择自己想要的并且进行改进，然后依靠个人的绘画能力生成许多个版本，最终依靠「功能&审美」选择出来了一个方案不断改进。当时被打回来修改很多次，因为外国人的对「波斯」的理解和我们对「波斯」的理解大相径庭，只有良好的绘画技法是无济于事的。所以这里面核心是两个能力：词汇理解 & 绘画技巧。

关于词汇的理解，目前还不知道 Midjourney 背后使用的 CLIP（即基于对比的图片 - 文本学习的跨模态训练模型）是哪个，但是常见的也有几亿对参数。比如在测试中 AI 能相对好地理解唐朝街道和神秘的吴哥窟。

关于绘画技巧，其实还能继续拆解为数学问题：

•对象就是坐标在空间中位置的集合，所谓的九头身就是统计学上人类觉得美的比例合集•材质就是对于光线的反射参数，比如人的皮肤反射率低，而金属就会比较高•光线本身有颜色、面积、强度等指数，照在不同的材质上会有不同的效果。•画面取决于镜头的尺寸、角度、焦距等•而风格是一个艺术家不断重复上述过程带来的统计学合集

只不过有了 Midjourney 之后，这个过程就交给了计算机的 AI，我们能从其提示语（Prompt）中窥见一些结构：

•基础句型：如 The_ of _ and _ , in the style of _

-主要有对象的数量和关系，比如有什么，谁在谁什么地方，关系是什么-图像的性质，比如是海报，封面，油画，设计图等-画面的风格

a.基于画家的风格：比如莫奈，或者吉卜力 b.基于时代的风格：比如波普，复古，暗房等 c.基于器材的风格：比如某种镜头，或者某个渲染器•光线：Soft Lighting / Bright•视角：鸟瞰/鱼眼/微缩镜头•其他参数：快速/去除/高清•尺寸：画布的长宽比和大小

当年几十个步骤的创作，可能现在变成了一句话加上 50s 的等待时间，而这背后就从感性变成了数学计算问题。

穆夏风格，一个长发女子望向圆月，有花瓣飘舞

浮世绘风格，飞流直下三千尺的英文翻译

就像 Photoshop 最终并非只是用来处理照片，还衍生出来了许多别的用法，PS 本身就成为了一种创造的媒介。而当绘画技巧和理解不是问题之后， Midjourney 为代表的这种 AI 创作媒介，会带来什么样的变化？通过在我社群中的观察，发现了一些可能性：

1.版权生意的变革：很难说这些创作是属于输入文本的人，还是拥有绘画风格的人，还是开发算法的人。目前在官网的介绍中并未看到特别明确的说明，但至少意味着，那些图库版权的生意，肯定会迎来某种变革，毕竟从音乐封面到公众号配图，大多数时候并不需要某个指定的画面。Midjourney 很早就意识到这种 AI 创作会和 NFT 进行关联，所以当任何和区块链相关的项目超过每月 2 万美金收入的时候，就要为其支付 20% 的版税。2.辅助创作：在电影/游戏的创作中有一个角色叫做「概念设计」，多半是通过快速的涂抹和拼贴，产生一些导演脑子中的效果，将抽象的概念具象化。而有了这个工具之后，效率会大幅提升，或者带来很多灵感启发。比如看到许多人在里面创造一些各种国家的街道，或者幻想中的场景。3.启发创作：在观察中发现，有人使用 AI 来创造各种各样的椅子。因为对于 AI 来说并没有对椅子风格的喜好和成见，反而能渲染出来一些独特的风格。这不是说能替代人类解决问题，但是却能让人跳脱自己和已知世界的框架，看到不同的答案。4.新的创作革命：就像 PS 和 AI 让许多曾经不会绘画的人也能设计出来自己的海报；AI 能够帮助那些有瑰丽想象力和审美意识的人无需经过几十年的基础努力，就能很快把自己脑海中的东西给具象化的呈现出来，当稀缺的资源不再稀缺的时候，总会带来巨大的变革。

这张画风格出自 Ivan Aivazovsky ，俄国著名画家，在 1900 年去世。所以他不可能看过香港的九龙城寨，以及理解什么是赛博朋克的风格。

而灵感则来自于押井守《攻壳机动队》的一个经典镜头，即在九龙城寨仰望飞机即将降落启德机场。后期由于飞机 AI 无法识别，所以是通过 PS 贴图，以及用 PS 贴合了一些电线和广告牌，调整了颜色的明暗。

在这个创作过程中，我和 AI 更多的是在探讨：这个画面应该怎么样，应该有什么不该有什么，应该增加什么减少什么，它是在搞不定的最终我会拿 PS 来修复，而它的许多创造有些是惨不忍睹，有些又超出我的预期。在我们不断地配合下，各司其职，最终生成了一个作品。

问题是，这张画，算是谁的？这种创作过程，又和传统的绘画过程有何不同呢？

像社群的产品，像产品的社群

与 Disco Diffusion 需要一堆麻烦的配置不同，Midjourney 主要架设在 Discord 上。

只需要在群内@机器人，然后输入上述指令，就可以每次生成四张图片，你可以选择其中一张继续扩展细节，也可以选择基于某张继续生成。

想要创作的时候，需要将命令发在群里并 @Bot ，然后 Bot 将会开始为你创作。通过和 Bot 的简单互动，就能得到最终的作品。同时基于 Discord 的接口，你可以在 Midjourney 的官网上看到自己的作品、Feeds、内容精选，以及对应不同的权限。

这意味着，除了高级付费会员，其他任何人的任何创作都能被其他人看到，而在群里面的人更像是在学习魔法的麻瓜，不断捕捉别人的关键字和风格，试图创造出来不一样的东西。

Discord 的频道中，各种人在尝试各种风格

通过接口将 Discord 的内容读取到网站上，可以浏览收藏和跳转到对应的内容

群内的学习速度非常之快，像极了生物的进化。比如有人带来了一个前所未有的艺术家风格，或者用了一组特殊的词汇来描述镜头，又或者是开了个巨大的脑洞，其他人很快就会来学习。在社区中创作，在社区中学习，在社区中获得荣誉，这和传统 web2.0 时代做一个 App 然后让别人下载，再拉起一堆微信群和开个公众号，是完全不同的演化思路。而任何新人加入，都只能通过已经付费的用户邀请加入群才能使用，这样新人到了之后能很快地在其他人的影响下开始创作，形成正向循环。而当这些新人掌握技巧后，会自然分流到主题群进行专业的创造（比如我就一直待在环境群里面生成各种风景图。）

另一方面，由于 Discord 足够丰富的接口，可以将社群中的内容提炼并沉淀出来，把快速流动的信息变成相对静态的资料库，这样对于新加入社群的人来说也能看到历史上的精华（比如优秀的作品和一些关键词），每个人也能从川流中退出，回到自己的主页，对已有作品进行欣赏和再创作。从这个视角来看，微信群最终归于沉寂是必然，因为既无法通过机器人提供高频的交互，也无法通过接口将内容和第三方共享沉淀群的历史价值，真的是很让人遗憾的事情。

Discord 让社群天然成为了产品的一部分，而 AI 产品本身需要被训练的特性，也因为社群不断激发和迭代。实话实说，在这一刻，内心有些羡慕这样的基础设施和产品。

小结

遇到一个新的媒介，最忌讳的其实是用老的思路来使用。更重要的是，理解这个媒介本身的特性，然后用这个特性来创造截然不同于之前东西，就像电影语言和游戏是不同的，印刷出版和电子出版也是不同的 —— 但可悲的是，任何媒介都会被老的媒介影响很久，直到新一代没有受到老媒介的新人诞生，才能为这个媒介找到最终的语言。

我兴奋于 AI 能绘制出来 1817 年风格的油画作品，被构图和颜色所震撼；但也观察到许多人并不用来做绘画，有用来生成房屋内的设计，有用来生成封面，有用来窥探某个历史事件的画面，有人用来做工业设计，有人用来模拟各种材质的效果，让已故的画家绘制未来的风格，也让梦境中的画面跃然纸上。

所以我唯一知道的是，不知道自己不知道的东西，还有太多，不要总是惯性思考。

References

[1]Somnai:
https://twitter.com/Somnai_dreams
[2]
人工智能绘画工具 Disco Diffusion 入门教程:
https://www.zcool.com.cn/article/ZMTM3OTg3Mg==.html
[3]
Midjourney 的说明文档:
https://midjourney.gitbook.io/docs/
[4]
Midjourney 的中文介绍:
https://www.incgmedia.com/new-release/ai-midjourney
[5]
AI 生成的风格对比:
https://weirdwonderfulai.art/resources/disco-diffusion-70-plus-artist-studies/

最近几期的沉思录newsletter中，我也更新了几篇关于AI画图的新思考和背后原理的认知，如果你对此感兴趣，也欢迎扫描下方二维码订阅。

继续阅读

阅读原文