CVPR 2021 | 天津大学提出PISE：形状与纹理解耦的人体图像生成与编辑方法

©PaperWeekly 原创 · 作者｜张劲松

学校｜天津大学硕士生

研究方向｜计算机视觉

导读：由单张人体图像来生成任意视角任意姿态下的图像，是近几年视觉领域研究的热点问题。现有方法无法实现灵活的图像编辑且难以合理预测不可见信息，其根本原因是衣服形状与风格/纹理的耦合以及空域相关信息的丢失。为了解决以上问题，该研究工作设计了形状与风格/纹理信息的分离方案，建立了分阶段分区域图像表示模型，联合局部与全局信息对目标图像进行合理预测，同时使用空间感知的正则化方法保留空间信息，实现了语义引导的新姿态图像生成与编辑，突破了形状与纹理难以解耦的瓶颈，并赋予算法灵活可控的编辑能力。

论文链接：

https://arxiv.org/abs/2103.04023

项目主页：

http://cic.tju.edu.cn/faculty/likun/projects/PISE

代码链接：

https://github.com/Zhangjinso/PISE

人体姿态迁移简介

简单来说，人体姿态迁移就是给定一张人物图像，希望生成该人物在指定姿态下的图像。如下图所示，最左列为给定的人物图像，在给定不同的新姿态下，该工作模型可以生成在新姿态下该人物的图像。

人体姿态迁移在角色动画、视频制作等领域都有着巨大的潜力。但由于人物图片纹理的多样性以及变换姿态和视点导致的自遮挡问题，人体姿态迁移系统很难得到令人满意的结果。

以往方法 [1-4] 针对如何提升人体姿态迁移系统的性能，即对如何生成更真实的图片进行了大量的研究。然而，人体姿态迁移系统生成人体图像的整个过程是不可控的，只能迁移姿态，不能迁移衣服的形状或者衣服的纹理。

PINet [5] 和 ADGAN [6] 对人体姿态迁移的可控性能进行了探索，但难以细致地控制属性，只能大致调整生成人物图像的穿着，不能灵活地控制其衣物样式及纹理。这是因为在人体图像生成的过程中，衣物的形状以及纹理信息是耦合的。

因此，如果可以将衣物的形状信息与纹理信息进行解耦，就可以在实现姿态迁移的同时还能灵活地编辑人体图像。

方法思路

该工作的目标是在实现人体姿态迁移，即分离出人体姿态的基础上，解耦形状信息与纹理信息，从而实现灵活的人体图像编辑。然而将形状信息与纹理信息从耦合的图像中分离出来是非常困难的。为此，作者引入人体语义分割图作为中间结果，将形状信息显示地表示出来。

具体来说，该方法分为两个阶段：1）采用解析生成器（Parsing Generator）根据原始语义分割图与目标姿态，生成目标图像的语义分割图；2）采用图像生成器（Image Generator）将生成的语义分割图依据输入图像转换为目标图像。

Parsing Generator

首先，作者使用 OpenPose [7] 提取出的 18 个关键点表示人体姿态信息，使用 CIHP PGN [8] 得到原始图像的人体语义分割图。Parsing Generator 负责根据目标姿态、原始姿态及其语义分割图去生成目标人物的语义分割图。

相比于直接对像素点的 RGB 进行预测输出最终结果的方法，两阶段的结构在一定程度上降低了问题的难度。但对目标人物的语义分割图进行预测仍然是一个输入输出不对齐的问题。

传统卷积对输入特征不同空间位置信息是平等对待的，因此并不适用于需要对特征进行空间变换的问题。作者在特征空间采用了门控卷积（gated convolution）来动态地赋予空间注意力，将原始姿态下的语义图变换为目标姿态下的语义图。

Image Generator

通过将人体语义分割图作为中间结果，作者把形状信息显示地表示了出来。基于此，作者进一步将解耦形状信息与纹理信息转化为解耦每个语义区域的形状信息与纹理信息。

首先，提取原始图像的特征，并根据原始图像的语义图，针对每个语义区域提取和形状无关的特征向量。在根据第一阶段产生的目标语义图生成目标图像的过程中，对于在原图像中可见的区域，使用原图像对应语义区域的特征向量进行调制；对于在原图像中不可见的区域，使用原图像所有区域的特征向量对其进行预测。

之后，将原图像中与形状无关的纹理信息使用正则化的方式注入到生成的图像特征中。然而，在提取原图像不同语义区域特征的过程中，丢失了每个语义区域的空间信息。为了保留原图像中每个语义区域的空间信息，作者引入了空间感知的归一化方法。在对生成特征注入纹理信息时，使用目标图像的 VGG 特征进行约束，使两者尽可能处于同一域内，进而计算两者的注意力图。

之后，对原图像特征进行通道归一化，保留其空间信息，使用之前预测的注意力图对原始图像的空间特征进行变形，进而得到与目标图像对齐的空间特征，并使用正则化方式进行特征调制。

整个过程在尽可能保持原图像中的纹理信息与空间信息的基础上，通过全局与局部联合的分区域归一化以及空间感知归一化方法，解耦了形状信息与纹理信息。

实验结果

在人体姿态迁移任务上，作者在 DeepFashion 数据集上与六种 SOTA 方法进行了对比。在定性比较上，该方法获得了最好的视觉结果，同时和原图像中的人物和衣着有着更高的一致性，空间上下文信息也很好地保留了下来。

在定量比较上，该方法产生的结果误差最小，有着最好的真实性以及与目标图像的一致性。

此外，作者还进行了纹理迁移和语义图编辑的实验，证明了该方法可以对人物图像进行灵活可控的编辑。更多的结果请参见该工作的论文与补充材料。

关于作者

张劲松 / 天津大学研三学生

主要研究方向：计算机视觉、图像生成等

https://zhangjinso.github.io

李坤 / 天津大学副教授、博导

主要研究方向：计算机视觉、计算机图形学、图像处理等

http://cic.tju.edu.cn/faculty/likun

来煜坤 / 英国卡迪夫大学副教授

主要研究方向：计算机图形学，几何处理，图像处理和计算机视觉

http://users.cs.cf.ac.uk/Yukun.Lai/

杨敬钰 / 天津大学教授、博导

主要研究方向：计算机视觉、智能图像/视频处理、计算成像与三维重建

http://tju.iirlab.org/doku.php?id=people:faculty:yjy

参考文献

[1] Zhen Zhu, Tengteng Huang, Baoguang Shi, Miao Yu, Bofei Wang, and Xiang Bai. Progressive pose attention transfer for person image generation. In Proc. IEEE Conf. Comput. Vis. Pattern Recog., pages 2342–2351, 2019.

[2] Kun Li, Jinsong Zhang, Yebin Liu, Yu-Kun Lai, Qionghai Dai. PoNA: Pose-guided Non-local Attention for Human Pose Transfer. IEEE Trans. Image Processing, vol. 29, pp. 9584-9599, 2020.

[3] Hao Tang, Song Bai, Philip HS Torr, and Nicu Sebe. Bipartite graph reasoning gans for person image generation. In Proc. Brit. Mach. Vis. Conf., 2020. 1, 6, 7

[4] Hao Tang, Song Bai, Li Zhang, Philip HS Torr, and Nicu Sebe. Xinggan for person image generation. In Proc. Eur. Conf. Comput. Vis., 2020.

[5] Jinsong Zhang，Xingzi Liu，Kun Li. Human Pose Transfer by Adaptive Hierarchical Deformation. Computer Graphics Forum, vol. 39, no. 7, pp. 325-337, 2020.

[6] Yifang Men, Yiming Mao, Yuning Jiang, Wei-Ying Ma, and Zhouhui Lian. Controllable person image synthesis with attribute-decomposed gan. In Proc. IEEE Conf. Comput. Vis. Pattern Recog., pages 5083–5092, 2020.

[7] Zhe Cao, Tomas Simon, Shih-En Wei, and Yaser Sheikh. Realtime multi-person 2D pose estimation using part affinity fields. In Proc. IEEE Conf. Comput. Vis. Pattern Recog., 2017.

[8] Ke Gong, Xiaodan Liang, Yicheng Li, Yimin Chen, Ming Yang, and Liang Lin. Instance-level human parsing via part grouping network. In Proc. Eur. Conf. Comput. Vis., 2018.

更多阅读