AI 又开“画展”了！Google Brain 推出新的图像生成模型—

今年4月的时候，OpenAI 曾展示了它新的图像生成神经网络 DALL-E 2，它可以几乎按照任何要求来生成高分辨率的图像，并在大多数方面都超过了最初版本的 DALL-E。

可仅仅过了一个月，Google Brain 就在近日也发布了自己的图像生成人工智能——Imagen，而它的表现甚至比 DALL-E 2 要更好。

Imagen 的相关论文于5月23日发布在 arxiv 上

（图片来源：arxiv）

Imagen 是一种文本到图像的扩散模型，具有深层次的语言理解能力，可以通过输入文本创建逼真的图像。Imagen 使用大型 frozen T5-XXL 编码器将输入的文本编码为‎‎嵌入‎‎，然后条件扩散模型将文本嵌入映射到 64×64 的图像中，之后再进一步利用超分辨率扩散模型生成 256×256 和 1024×1024 的图像。

输入“一只穿戴着蓝色格子贝雷帽和红色波点高领毛衣的金毛犬”后 Imagen 的动作

（图片来源：Imagen）

Imagen 的许多图片都令人惊叹不已，不仅仅是因为图片内容有趣又奇幻，而且很多图片场景带来的真实感十分强烈。

（图片来源：MIT technologyreview）

就像 OpenAI 发布 DALL-E 时所做的一样，Google 也用各种“拟人化动物”的可爱图片来宣传他们的工具，比如一只戴着宇航员头盔的浣熊，一只趴在寿司房子里的柯基，一只戴着皇冠坐在国王宝座上的博美等等。

但是，这些公开的大多数图片之所以都如此可爱，或许是经过精心挑选的结果。其实像 DALL-E 2 和 Imagen 这样的模型，往往依赖于大量网络抓取的图像数据，而这些数据通常是未经处理的，其中既有好的数据，同时也会有不健康的数据。

Imagen 团队表示 :“虽然我们对一部分训练数据进行了过滤，以去除噪音和不良内容，如色情图像和有毒语言，但我们也使用了 LAION-400M 数据集，众所周知，该数据集包含大量不当内容，包括色情图像、种族歧视和有害的社会刻板印象。Imagen 依赖于在未记录的网络规模数据上训练的文本编码器，从而继承了大型语言模型的社会偏见和局限性。因此，Imagen 存在对有害的刻板印象和表述进行编码的风险，这促使我们决定在没有进一步保障措施的情况下，不发布 Imagen 供公众使用。”

尽管 DALL-E 2 和 Imagen 存在风险，但它们本质上大大地推动了人工智能领域的发展，使人工智能再次达到了新的高度。并且，这种人工智能图像生成的技术将有可能成为改变世界的一项技术。

（图片来源：pixabay）

回顾过往，你会发现人工智能在发展到一定程度之后都受到了一个瓶颈的困扰：主要的机器学习手段还是来自于蛮力计算，而且其依赖大量的数据来训练系统。这离人类的思考方式还是有很大区别的。人类在思考时可以进行泛化，例如，婴儿直知道什么是猫之后，再见到其他的猫就能马上知道这是猫。

机器无法进行泛化，这从另外一个方面也反映了机器学习一直只能通过大量数据分析模仿人类的逻辑分析能力，而一直难以实现人类大脑的另一强大功能——想象力。

直到2014年，当时还是蒙特利尔大学博士生的 Ian Goodfellow 突然想到了这个问题的答案——对抗性神经网络。对抗性神经网络的原理是两个 AI 系统可以通过相互对抗来创造超级真实的原创图像或声音。对抗性神经网络赋予了机器创造和想象的能力，也让机器学习减少了对数据的依赖性，对于人工智能是一大突破。

对抗性神经网络被称作是近年来最有潜力的，解决了一直困扰人工智能领域数据来源问题的重要机器学习模型，可以说是真正实现了不依赖人类的无监督学习。对抗性神经网络更是在2018年入选了《麻省理工科技评论》“十大突破性技术”。

自2018年以来，由对抗性神经网络带来的无监督学习方法吸引了越来越多的关注，并使得 AI 在多个领域取得了巨大的进展。除了前面提到的图像生成领域，AI 在文本创作领域同样表现不俗。入选2021年《麻省理工科技评论》“十大突破性技术”之一的 GPT-3 就是一种使用对抗性神经网络无监督学习算法的 “大型语言模型”。

GPT-3 由旧金山的研究实验室 OpenAI 创建。基于GPT-3，AI 能够模仿人类书写文本，且逼真程度令人称赞，人们甚至认为 GPT-3 可以写出任何东西：同人小说、哲学辩论、甚至代码。GPT-3 的出现也让我们可以期待 AI 将在未来走得更远。