音视频学习——图像编辑开源库

1Imagen Editor

网址：

https://imagic-editing.github.io/

示例：

介绍：

该工具首次展示了将复杂（例如，非刚性）文本引导的语义编辑应用于单个真实图像的能力。例如，可以改变图像内一个或多个对象的姿势和构图，同时保留其原始特征。该工具采用的方法可以使站立的狗坐下或跳跃，使鸟张开翅膀等。该工具是针对真实图像进行操作，而不需要任何额外的输入（例如图像模版或对象的附加视图）。该工具利用预先训练的文本到图像扩散模型来完成此任务。生成与输入图像和目标文本对齐的文本嵌入，同时微调扩散模型以捕获图像特定的外观。在来自不同领域的大量输入上展示了该方法的质量和多功能性，展示了大量高质量的复杂语义图像编辑，所有这些都在一个统一的框架内。

2 Learning to Zoom and Unzoom

网址：

https://github.com/tchittesh/lzu

示例：

介绍：

LZU 是一种将空间注意力应用于神经网络的高度灵活的方法。极其简单的源代码（缩放和取消缩放）可以应用于任何使用空间处理（例如卷积）的模型。

3 Prompt-to-Prompt

网址：

https://github.com/google/prompt-to-prompt

https://prompt-to-prompt.github.io/

示例：

介绍：

基于这些合成模型来提供文本驱动的图像编辑功能是很自然的。然而，编辑对于这些生成模型来说是具有挑战性的，因为编辑技术的固有属性是保留原始图像中的一些内容，而在基于文本的模型中，即使是对文本提示的微小修改也常常会导致完全不同的结果。结果。最先进的方法通过要求用户提供空间掩模来本地化编辑来缓解这种情况，从而忽略掩模区域内的原始结构和内容。在本文中，追求一种直观的提示到提示编辑框架，其中编辑仅由文本控制。该方法深入分析了文本条件模型，并观察到交叉注意力层是控制图像空间布局与提示中每个单词之间关系的关键。通过这一观察，该方法建议通过沿着扩散过程注入原始图像的注意力图来控制编辑图像的注意力图。该方法能够通过仅编辑文本提示来监控合成过程，为无数基于字幕的编辑应用程序铺平道路，例如通过替换单词进行本地化编辑，通过添加规范进行全局编辑，甚至控制范围哪个词反映在图像中。该方法使用不同的文本到图像模型在不同的图像和提示上展示相关结果，展示了高质量的合成和对编辑提示的保真度。

4 InstructPix2Pix

网址：

https://www.timothybrooks.com/instruct-pix2pix/

示例：

介绍：

该方法提出了一种根据人类指令编辑图像的方法：给定输入图像和告诉模型要做什么的书面指令，该方法的模型遵循这些指令来编辑图像。为了获得该问题的训练数据，该方法结合了两个大型预训练模型的知识——语言模型（GPT-3）和文本到图像模型（稳定扩散）——生成大型图像数据集编辑示例。该方法的条件扩散模型 InstructPix2Pix 根据该方法生成的数据进行训练，并在推理时推广到真实图像和用户编写的指令。由于它在前向传播中执行编辑并且不需要每个示例的微调或反转，因此该方法的模型可以快速编辑图像，几秒钟之内。该方法展示了各种输入图像和书面说明的令人信服的编辑结果。

5 Exemplar-based Image Editing

网址：

https://github.com/Fantasy-Studio/Paint-by-Example

示例：

介绍：

语言引导的图像编辑最近取得了巨大的成功。在本文中，该方法首次研究示例引导的图像编辑以实现更精确的控制。该方法通过利用自我监督训练来解开和重新组织源图像和样本来实现这一目标。然而，简单的方法会导致明显的融合伪影。该方法仔细分析它并提出信息瓶颈和强大的增强，以避免直接复制和粘贴示例图像的简单解决方案。同时，为了确保编辑过程的可控性，该方法为样本图像设计了任意形状的掩模，并利用无分类器引导来增加与样本图像的相似度。整个框架涉及扩散模型的单次转发，没有任何迭代优化。该方法证明了论文中的方案取得了令人印象深刻的性能，并且能够以高保真度对野外图像进行可控编辑。

6 nijijourney

网址：

https://nijijourney.com/zh/

示例：

介绍：

这是一个最先进的AI，可以绘制任何二次元风格的绘画！这是一个由 Spellbrush 与 Midjourney 所共同设计开发的魔法工具。无论您是在寻找可爱的Q版角色还是充满动感的动作场景，niji・journey 都能将您的想象变为现实。！

7 phygital

网址：

https://phygital.plus/

示例：

介绍：

Phygital+ 是一款无代码人工智能工具，允许用户使用人工智能功能创建令人惊叹的视觉效果。它是一个基于云的平台，为用户提供图形用户界面（GUI）来构建和管理人工智能模型。Phygital+ 提供多种功能，包括：

生成式人工智能：这允许用户从头开始创建新的图像、视频和文本。
Transformer AI：这允许用户翻译语言、编写不同类型的创意内容并以信息丰富的方式回答问题。
计算机视觉：这允许用户分析图像和视频以提取信息。
自然语言处理：这允许用户理解和处理人类语言。

Phygital+ 是一款功能强大的工具，可供各种经验水平的创作者使用。这是了解人工智能以及如何使用它来创建令人惊叹的内容的好方法。

8 Artbreeder

网址：

https://www.artbreeder.com/

示例：

介绍：

Artbreeder 是一个允许用户创建和分享人工智能生成的艺术的网站。它使用一种称为生成对抗网络（GAN）的人工智能来创建基于用户输入的图像。Artbreeder 被用来创建各种各样的图像，包括肖像、风景和抽象艺术。它还被用来创建深度伪造品，即经过处理的视频或音频录音，使其看起来或听起来像是某人在说或做他们从未说过或做过的事情。以下是 Artbreeder 的一些功能：

GAN 支持的图像生成：Artbreeder 使用 GAN 创建基于用户输入的图像。这允许用户创建逼真且富有创意的图像。
协作编辑：用户可以通过编辑彼此的作品来协作处理图像。这允许创建更复杂和有趣的图像。
社区论坛：Artbreeder 有一个社区论坛，用户可以在其中分享他们的图像并讨论网站。这是了解更多有关 Artbreeder 并获得有关您自己的工作的反馈的好方法。

以上是最近闲暇之余玩的东西，或者别人推荐的内容，有兴趣的或者加关注下方公众号，加我VX，一起讨论。

我是一枚爱跑步的程序猿，维护公众号和知乎专栏《MediaStack》，有兴趣可以关注，一起学习音视频知识，时不时分享实战经验。

继续阅读

阅读原文