©PaperWeekly 原创 · 作者|张劲松
学校|天津大学硕士生
研究方向|计算机视觉
导读:由单张人体图像来生成任意视角任意姿态下的图像,是近几年视觉领域研究的热点问题。现有方法无法实现灵活的图像编辑且难以合理预测不可见信息,其根本原因是衣服形状与风格/纹理的耦合以及空域相关信息的丢失。为了解决以上问题,该研究工作设计了形状与风格/纹理信息的分离方案,建立了分阶段分区域图像表示模型,联合局部与全局信息对目标图像进行合理预测,同时使用空间感知的正则化方法保留空间信息,实现了语义引导的新姿态图像生成与编辑,突破了形状与纹理难以解耦的瓶颈,并赋予算法灵活可控的编辑能力。
论文链接:
https://arxiv.org/abs/2103.04023
项目主页:
http://cic.tju.edu.cn/faculty/likun/projects/PISE
代码链接:
https://github.com/Zhangjinso/PISE
人体姿态迁移简介
简单来说,人体姿态迁移就是给定一张人物图像,希望生成该人物在指定姿态下的图像。如下图所示,最左列为给定的人物图像,在给定不同的新姿态下,该工作模型可以生成在新姿态下该人物的图像。
人体姿态迁移在角色动画、视频制作等领域都有着巨大的潜力。但由于人物图片纹理的多样性以及变换姿态和视点导致的自遮挡问题,人体姿态迁移系统很难得到令人满意的结果。
以往方法 [1-4] 针对如何提升人体姿态迁移系统的性能,即对如何生成更真实的图片进行了大量的研究。然而,人体姿态迁移系统生成人体图像的整个过程是不可控的,只能迁移姿态,不能迁移衣服的形状或者衣服的纹理。
PINet [5] 和 ADGAN [6] 对人体姿态迁移的可控性能进行了探索,但难以细致地控制属性,只能大致调整生成人物图像的穿着,不能灵活地控制其衣物样式及纹理。这是因为在人体图像生成的过程中,衣物的形状以及纹理信息是耦合的。
因此,如果可以将衣物的形状信息与纹理信息进行解耦,就可以在实现姿态迁移的同时还能灵活地编辑人体图像。
方法思路
该工作的目标是在实现人体姿态迁移,即分离出人体姿态的基础上,解耦形状信息与纹理信息,从而实现灵活的人体图像编辑。然而将形状信息与纹理信息从耦合的图像中分离出来是非常困难的。为此,作者引入人体语义分割图作为中间结果,将形状信息显示地表示出来。
具体来说,该方法分为两个阶段:1)采用解析生成器(Parsing Generator)根据原始语义分割图与目标姿态,生成目标图像的语义分割图;2)采用图像生成器(Image Generator)将生成的语义分割图依据输入图像转换为目标图像。
Parsing Generator
首先,作者使用 OpenPose [7] 提取出的 18 个关键点表示人体姿态信息,使用 CIHP PGN [8] 得到原始图像的人体语义分割图。Parsing Generator 负责根据目标姿态、原始姿态及其语义分割图去生成目标人物的语义分割图。
相比于直接对像素点的 RGB 进行预测输出最终结果的方法,两阶段的结构在一定程度上降低了问题的难度。但对目标人物的语义分割图进行预测仍然是一个输入输出不对齐的问题。
传统卷积对输入特征不同空间位置信息是平等对待的,因此并不适用于需要对特征进行空间变换的问题。作者在特征空间采用了门控卷积(gated convolution)来动态地赋予空间注意力,将原始姿态下的语义图变换为目标姿态下的语义图。
Image Generator
通过将人体语义分割图作为中间结果,作者把形状信息显示地表示了出来。基于此,作者进一步将解耦形状信息与纹理信息转化为解耦每个语义区域的形状信息与纹理信息。
首先,提取原始图像的特征,并根据原始图像的语义图,针对每个语义区域提取和形状无关的特征向量。在根据第一阶段产生的目标语义图生成目标图像的过程中,对于在原图像中可见的区域,使用原图像对应语义区域的特征向量进行调制;对于在原图像中不可见的区域,使用原图像所有区域的特征向量对其进行预测。
之后,将原图像中与形状无关的纹理信息使用正则化的方式注入到生成的图像特征中。然而,在提取原图像不同语义区域特征的过程中,丢失了每个语义区域的空间信息。为了保留原图像中每个语义区域的空间信息,作者引入了空间感知的归一化方法。在对生成特征注入纹理信息时,使用目标图像的 VGG 特征进行约束,使两者尽可能处于同一域内,进而计算两者的注意力图。
之后,对原图像特征进行通道归一化,保留其空间信息,使用之前预测的注意力图对原始图像的空间特征进行变形,进而得到与目标图像对齐的空间特征,并使用正则化方式进行特征调制。
整个过程在尽可能保持原图像中的纹理信息与空间信息的基础上,通过全局与局部联合的分区域归一化以及空间感知归一化方法,解耦了形状信息与纹理信息。
实验结果
在人体姿态迁移任务上,作者在 DeepFashion 数据集上与六种 SOTA 方法进行了对比。在定性比较上,该方法获得了最好的视觉结果,同时和原图像中的人物和衣着有着更高的一致性,空间上下文信息也很好地保留了下来。
在定量比较上,该方法产生的结果误差最小,有着最好的真实性以及与目标图像的一致性。
此外,作者还进行了纹理迁移和语义图编辑的实验,证明了该方法可以对人物图像进行灵活可控的编辑。更多的结果请参见该工作的论文与补充材料。
关于作者
张劲松 天津大学研三学生
主要研究方向:计算机视觉、图像生成等
https://zhangjinso.github.io
李坤 / 天津大学副教授、博导
主要研究方向:计算机视觉、计算机图形学、图像处理等 
http://cic.tju.edu.cn/faculty/likun
来煜坤 / 英国卡迪夫大学副教授
主要研究方向:计算机图形学,几何处理,图像处理和计算机视觉
http://users.cs.cf.ac.uk/Yukun.Lai/
杨敬钰 / 天津大学教授、博导
主要研究方向:计算机视觉、智能图像/视频处理、计算成像与三维重建
http://tju.iirlab.org/doku.php?id=people:faculty:yjy
参考文献
[1] Zhen Zhu, Tengteng Huang, Baoguang Shi, Miao Yu, Bofei Wang, and Xiang Bai. Progressive pose attention transfer for person image generation. In Proc. IEEE Conf. Comput. Vis. Pattern Recog., pages 2342–2351, 2019.
[2] Kun Li, Jinsong Zhang, Yebin Liu, Yu-Kun Lai, Qionghai Dai. PoNA: Pose-guided Non-local Attention for Human Pose Transfer. IEEE Trans. Image Processing, vol. 29, pp. 9584-9599, 2020.
[3] Hao Tang, Song Bai, Philip HS Torr, and Nicu Sebe. Bipartite graph reasoning gans for person image generation. In Proc. Brit. Mach. Vis. Conf., 2020. 1, 6, 7
[4] Hao Tang, Song Bai, Li Zhang, Philip HS Torr, and Nicu Sebe. Xinggan for person image generation. In Proc. Eur. Conf. Comput. Vis., 2020.
[5] Jinsong Zhang,Xingzi Liu,Kun Li. Human Pose Transfer by Adaptive Hierarchical Deformation. Computer Graphics Forum, vol. 39, no. 7, pp. 325-337, 2020.
[6] Yifang Men, Yiming Mao, Yuning Jiang, Wei-Ying Ma, and Zhouhui Lian. Controllable person image synthesis with attribute-decomposed gan. In Proc. IEEE Conf. Comput. Vis. Pattern Recog., pages 5083–5092, 2020.
[7] Zhe Cao, Tomas Simon, Shih-En Wei, and Yaser Sheikh. Realtime multi-person 2D pose estimation using part affinity fields. In Proc. IEEE Conf. Comput. Vis. Pattern Recog., 2017.
[8] Ke Gong, Xiaodan Liang, Yicheng Li, Yimin Chen, Ming Yang, and Liang Lin. Instance-level human parsing via part grouping network. In Proc. Eur. Conf. Comput. Vis., 2018.
更多阅读
#投 稿 通 道#
 让你的论文被更多人看到 
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。
📝 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向) 
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接 
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
📬 投稿邮箱:
• 投稿邮箱:[email protected] 
• 所有文章配图,请单独在附件中发送 
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。
继续阅读
阅读原文