作者
:Byeonghyun Pak 等

论文题目
:B-spline Texture Coefficients Estimator for Screen Content Image Super-Resolution

论文链接
:https://openaccess.thecvf.com/content/CVPR2023/html/Pak_B-Spline_Texture_Coefficients_Estimator_for_Screen_Content_Image_Super-Resolution_CVPR_2023_paper.html

内容整理
:刘潮磊

随着多媒体应用的快速发展,屏幕内容图像(SCI)已在人们日常生活中频繁出现。但是显示设备和SCI之间经常发生分辨率不匹配,并且,SCI有着边缘薄而锐利等特点,与自然图像很不同。然而,大多数超分辨率方法是应用于自然图像的。因此,本文提出了一种针对SCI的超分辨率方法。本文提出了利用INR连续表示SCI的B样条纹理系数估计器(BTC),从低分辨率(LR)图像中预测B样条曲线的系数、节点和膨胀参数。然后,将查询点的坐标投影到2维B样条表示的空间中,并将其馈送到MLP。利用B样条基函数的正约束和紧支撑性,在SCI的不连续处减少了下冲/过冲带来的失真。
目录
  • 相关工作
    • Implicit neural representation
    • B-spline representation
  • 问题表述
    • 隐式神经表示
    • 二元不均匀B样条
  • 方法
    • 框架
    • B样条基函数形式
  • 实验
    • 与其他方法的对比
    • 计算资源消耗对比
    • 消融实验
  • 结论

相关工作

Implicit neural representation

核心思想:真实世界的物体可以视为一个坐标到像素值的连续函数,INR通过神经网络逼近这个连续函数。
图1
上图为LIIF中的隐式神经表示方法,也是隐式神经表示的一般形式,其中:Data preparation:将数据预处理成高分辨率和低分辨率的图片。Training:低分辨率图片经过一个encoder,得到feature map,然后与高分辨率图像坐标(x,y)一起输入一个MLP预测高分辨率图像的像素值。

B-spline representation

一维B样条定义:
含义:P代表控制点;B代表基函数,这个基函数也可以理解为每个节点的权重(系数)。B样条以这样的节点加基函数的形式控制曲线的形状。
B样条广义形式:
c[t]:B样条系数;k[t]:B样条节点;d[t]:B样条膨胀。B样条广义形式与一般形式有所不同,但本质上也是通过节点和系数两个参量控制B样条曲线的形状。

问题表述

隐式神经表示

本文的隐式神经表示与LIIF中基本一致,都是通过双线性插值考虑四个最近邻像素来计算新像素的值。:LR图像经过encoder之后t处的潜在编码;:t处的坐标;s:s代表了像素的形状信息,取值为2/r;r是图像放大率;t∈𝑁:代表进行双线性插值,考虑四个最近邻像素来计算新像素的值;:双线性插值的权重。

二元不均匀B样条

本文与LIIF最大的区别就在于,它在隐式神经表示的基础上,引入二元不均匀B样条,把三个参量进行B样条表示, (∙)就是B样条表示的函数。
二元不均匀B样条具体形式:
二元不均匀B样条代表一个曲面,以为参数,为曲面上某点的高度。曲面由C个系数和2个节点控制。函数分为x、y两路进行,将x、y轴上的坐标、节点、膨胀分别进行 映射,并进行张量积,得到×的矩阵,再展平,最后与系数点积。
=𝑋−:代表位置信息的一个二维向量;:B样条系数,是一个C维向量;:B样条节点,是一个维向量 ;𝑑:B样条膨胀(是一个维向量);:B样条基函数(n代表基函数次数,论文实验中n取3)

方法

框架

图2
Step1(BTC):1.将LR图像通过encoder得到潜在编码z(论文中使用RDN作为encoder);2.用系数估计器、节点估计器,从z中得到B样条的C个系数和2个节点;3.用膨胀估计器,从s=2/r中得到B样条的膨胀d;4.由于系数和节点是由LR中的一个像素的z预测出的,而LR图像中的一个像素对应到HR中r×r的区域,因此,用最近邻空间插值来放大系数和节点。
Step2(B样条表示):根据Problem formulation中的二元不均匀B样条,将输入参数进行B样条表示。
Step3(推测查询点RGB值):利用Problem formulation中的隐式神经表示的解码器(∙)得到查询点RGB值;最后,再将解码器得到的值和LR图像经双线性插值得到的值(长跳跃连接)相加,作为最终输出。(长跳跃连接是为了丰富高频分量并稳定收敛,因为方法本身倾向于预测低频信息,加入长跳跃连接之后就能避免只关注低频分量。)

B样条基函数形式

采用卷积定义, 是 的n次卷积(:在|𝑥|<0.5时取1,其余取0)

实验

与其他方法的对比

下图为场景文本识别结果,文章比较了Meta-SR、LIIF等方式的置信度。可以看出,BTC具有优势。
图3
下表以PSNR为指标,对比几种超分辨率方法的结果。可以看出,BTC具有优势。
表1

计算资源消耗对比

下表为计算资源消耗对比(内存占用和时间消耗)。可以看出,BTC占用内存较少,并且时间消耗较短。
表2

消融实验

下表是消融实验结果,其中“-C”、“-K”、“-D”分别表示去除系数、节点、膨胀估计器之后的结果,“-L”表示去除长跳跃连接,“” “” 表示B样条基函数β次数取为2、4。可以看出,B样条参数估计器、长跳跃连接、基函数次数选为3的方法都能提高模型效果,其中节点估计器的影响远大于其他措施。
表3

结论

本文提出了一种用于任意尺度SCI SR的B样条纹理系数估计器(BTC)。本文基于BTC的SR方法在屏幕内容数据集上取得了最佳性能,且模型较小。此外,该方法在恢复文本或图形的细边缘方面优于其他任意尺度SR方法。与利用傅立叶表示的LTE相比,BTC由于利用了有紧支撑和正约束特点的B样条,减少了由于过冲或下冲导致的伪影。此外,BTC显示出高效的内存消耗和计算时间,且SR结果通过场景文本识别网络被认定为具有最高的置信度。
继续阅读
阅读原文