作者
:Qianqian Wang, Zhengqi Li 等

来源
:CVPR 2022

论文题目
:3D Moments from Near-Duplicate Photos

内容整理
:王秋文
目录
  • 引言
  • 方法
    • 整体流程
    • 从图像生成 LDI
    • 时空场景表示
    • 双向映射及渲染
  • 实验及结果
  • 参考文献
标题图

引言

随着现代数字摄像技术的发展,人们可以方便地拍摄大量的照片。在现实生活中某一场景下拍摄照片时,为了拍下某个人最合适的表情,或者某个最值得纪念的瞬间,人们往往会连续拍摄很多张时空域相似的照片。最终,这些照片最终往往会被遗忘在数字存储器中。为了提出了一种利用这些在时空域上较为相似的图像,本文提出了一种新颖的动态三维图像,并称之为 3D Moments:基于如图 1 左侧所示的从两个相近的视角位置拍摄到的相近时间的两张图片,合成出一个如图 1 中右侧部分所示的可以同时实现自由视和动作插值的较短的时空视频。
图1 3D Moments 概念示意图
目前对于动态场景进行自由视的已有的工作,一般是基于NeRF[2]的方法,但是这种方法需要很多的已知相机参数的视角进行监督。而其他方法一般只能进行动态场景的动作插帧,或只能基于静态场景的单个图像实现自由视合成,都不能独立完成 3D Moments 合成这一任务。因此,本文提出了一种通过分层深度图(LDI)和光流完成这一任务的模型。

方法

整体流程

图2 本文算法的整体流程框架图
为了满足前述在时间和空间两个方面对三维场景进行理解和合成的目标,本文提出了如图 2 所示的新颖模型框架。具体来说,合成 3D Moments 的步骤为:
  • 根据两张相似图像估计出的光流将这两张图像的相机参数对齐,并估计两张图的深度
  • 根据图像的颜色和深度制作两张图分别的 LDI,并对 LDI 中每层图的颜色和深度进行修复
  • 通过特征提取网络将彩色图 LDI 转变为特征 LDI,并根据深度映射为两个包含三维光流的点云
  • 通过双向光流插值出两张图像对应的时间之间的 t 时刻两个点云对应的位置,并在目的视角下渲染出特征图和深度图
  • 将两张特征图根据深度关系进行融合,再通过 U-net[3] 输出彩色图像

从图像生成 LDI

本文中所提出的模型首先计算两张图像分别对应的三维场景几何结构。本文使用了 RAFT 算法[4]计算两张图像间的光流。在两张图像得到的光流中,背景部分往往对应的光流值较少,而动态的前景物体一般则对应着较大的光流。由于两张图像间的拍摄视角不同,因此本文根据静态的场景背景部分的光流将两张图像的相机位置对齐。
由于传统的立体视觉方法无法使用在动态场景上,因此本文使用了 DPT 深度估计模型[5]以获得每张图像中三维场景的几何结构,并得到了场景的相对深度。根据前述得到的光流,使用两张图像间光流对应的区域间的深度关系将两张图像的相对深度范围进行对齐。
得到两张图像的深度值后,根据提前设定的深度阈值将彩色图和深度图聚类形成 2~5 层的彩色 LDI,其中的每一层包括该层中对应像素的彩色值和预测的相对深度值。
图3 彩色/深度 LDI 修补示意图
为了防止后续视角变换的过程中出现空洞,本文使用基于上下文感知的 LDI 修复模型[6]对两张照片所生成的彩色 LDI 和深度 LDI中的每一层像素长宽范围框选的范围进行修补。修补的上下文区域范围是所修复的层到最远层间的内容,并在修补后去除修复深度大于原该层中最大深度的像素点。

时空场景表示

在两张对齐的二维图像上,本文计算他们之间的光流以表征场景中物体的运动,并通过前向后向的一致性检查像素间的相互关系。基于二维图像的像素流和像素对应的深度,可以得到三维坐标间的对应关系,即三维的场景流。没有相互对应关系的像素会缺失对应的场景流,例如在某一张图像中被遮挡的区域或前述填补的区域中的像素。为了解决这一问题,结合显示生活中场景就在空间上往往是光滑的这一特征,使用模糊核迭代扩散已有的场景流以填补这些缺失场景流的区域。
为了基于前述的两个 LDI 得到不同的相机视角和时间下的渲染图像,本文使用了一个二维特征提取网络为 LDI 中的每一层生成一个二维特征图,将场景的局部外观编码进对应像素的特征中,并期望经过训练可以减少由于深度估计错误或场景流估计错误而引起的伪影。两个特征 LDI 上特征结合对应的三维坐标和场景流相当于得到了两个具有上述三个信息的点云。

双向映射及渲染

根据两个点云所包含的信息,算法首先计算 时刻场景中三维像素点的位置。在这一过程中,每一个像素点分别从 时刻和 时刻根据三维场景流计算出 时刻相应的三维坐标位置和。分别使用基于点的可微渲染方法[7]渲染出目标视角下两个方向的特征图 、 和深度图 和 。在融合两个不同方向的特征图和深度图时,应当赋予距离 时刻较近的时刻的计算结果更大权重。同时,如果 中某一像素的深度要小于 中该像素的深度,则 应该被赋予更大的权重。出于以上两种经验,本文设置了权重参数 :
其中, 是一个可学参数,其与相对深度的大小有关。融合后的特征图 和深度图 可以通过该权重值加权求得:
最终,将融合后的特征图和深度图输入到网络中即可合成出所需的彩色图像。

实验及结果

本文作者选择了 Vimeo-90K[8] 以及 Mannequin-Challenge dataset[9] 两个数据集作为训练集,通过 Vimeo-90K 训练网络的动作插值能力,通过 Mannequin-Challenge dataset 训练网络完成自由视角合成任务。在测试方面,本文选择了 NVIDIA Dynamic Scenes Dataset[10] 和 UCSD Multi-View Video Dataset[11] 作为测试集进行了性能测试,并与经过简单场景流、先插帧[12]再合成三维图像[6]以及先合成三维图像再插帧这三种方法进行比较。测试的客观结果如图 4 中的表格所示,主观性能比较如图 5 中所示,在自然场景下的测试结果如图 6 中所示。
图4 本文模型与其他方法客观指标对比结果
图5 本文模型与其他方法主观感受对比结果
图6 自然环境下本文模型与其他方法对比结果
从比较结果可以看出,本文中所提出的模型在客观指标计算和主观感受两个方面均显示出优异的性能,相比较于其他方法产生的伪影更少。
经过本文中所提出的模型,可以使用两张相似的照片得到如图 6 中动画所示的效果。
图6 模型效果演示图
但本文中所提出的方法也受到了所使用的单目深度估计以及光流方法一定的限制,当在某些几何结构较为复杂的场景中或场景中出现半透明物体时,可能导致深度估计和光流估计的结果不准确,从而使得模型生成的结果出现较大问题。除此外,当场景中存在大尺度非线性运动或存在自我遮挡时,本文中所提出的方法也可能合成出并不合理的结果。

参考文献

[1]Wang Q, Li Z, Salesin D, et al. 3D Moments from Near-Duplicate Photos[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 3906-3915.
[2]Mildenhall B, Srinivasan P P, Tancik M, et al. Nerf: Representing scenes as neural radiance fields for view synthesis[C]//European conference on computer vision. Springer, Cham, 2020: 405-421.
[3]Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation[C]//International Conference on Medical image computing and computer-assisted intervention. Springer, Cham, 2015: 234-241.
[4]Teed Z, Deng J. Raft: Recurrent all-pairs field transforms for optical flow[C]//European conference on computer vision. Springer, Cham, 2020: 402-419.
[5]Ranftl R, Bochkovskiy A, Koltun V. Vision transformers for dense prediction[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 12179-12188.
[6]Shih M L, Su S Y, Kopf J, et al. 3d photography using context-aware layered depth inpainting[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 8028-8038.
[7]Wiles O, Gkioxari G, Szeliski R, et al. Synsin: End-to-end view synthesis from a single image[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 7467-7477.
[8]Xue T, Chen B, Wu J, et al. Video enhancement with task-oriented flow[J]. International Journal of Computer Vision, 2019, 127(8): 1106-1125.
[9]Li Z, Dekel T, Cole F, et al. Learning the depths of moving people by watching frozen people[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 4521-4530.
[10]Yoon J S, Kim K, Gallo O, et al. Novel view synthesis of dynamic scenes with globally coherent depths from a monocular camera[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 5336-5345.
[11]Lin K E, Xiao L, Liu F, et al. Deep 3d mask volume for view synthesis of dynamic scenes[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 1749-1758.
[12]Sim H, Oh J, Kim M. Xvfi: Extreme video frame interpolation[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 14489-14498.
继续阅读
阅读原文