CVPR 2023 | 屏幕图像超分中的B样条纹理系数估计

作者
：Byeonghyun Pak 等

论文题目
：B-spline Texture Coefficients Estimator for Screen Content Image Super-Resolution

论文链接
：https://openaccess.thecvf.com/content/CVPR2023/html/Pak_B-Spline_Texture_Coefficients_Estimator_for_Screen_Content_Image_Super-Resolution_CVPR_2023_paper.html

内容整理
：刘潮磊

随着多媒体应用的快速发展，屏幕内容图像（SCI）已在人们日常生活中频繁出现。但是显示设备和SCI之间经常发生分辨率不匹配，并且，SCI有着边缘薄而锐利等特点，与自然图像很不同。然而，大多数超分辨率方法是应用于自然图像的。因此，本文提出了一种针对SCI的超分辨率方法。本文提出了利用INR连续表示SCI的B样条纹理系数估计器（BTC），从低分辨率（LR）图像中预测B样条曲线的系数、节点和膨胀参数。然后，将查询点的坐标投影到2维B样条表示的空间中，并将其馈送到MLP。利用B样条基函数的正约束和紧支撑性，在SCI的不连续处减少了下冲/过冲带来的失真。

相关工作

Implicit neural representation
B-spline representation

问题表述

隐式神经表示
二元不均匀B样条

方法

框架
B样条基函数形式

实验

与其他方法的对比
计算资源消耗对比
消融实验

结论

问题表述

隐式神经表示

本文的隐式神经表示与LIIF中基本一致，都是通过双线性插值考虑四个最近邻像素来计算新像素的值。：LR图像经过encoder之后t处的潜在编码；：t处的坐标；s：s代表了像素的形状信息，取值为2/r；r是图像放大率；t∈𝑁：代表进行双线性插值，考虑四个最近邻像素来计算新像素的值；：双线性插值的权重。

二元不均匀B样条

本文与LIIF最大的区别就在于，它在隐式神经表示的基础上，引入二元不均匀B样条，把三个参量进行B样条表示， (∙)就是B样条表示的函数。

二元不均匀B样条具体形式:

二元不均匀B样条代表一个曲面，以为参数，为曲面上某点的高度。曲面由C个系数和2个节点控制。函数分为x、y两路进行，将x、y轴上的坐标、节点、膨胀分别进行映射，并进行张量积，得到×的矩阵，再展平，最后与系数点积。

=𝑋−：代表位置信息的一个二维向量；：B样条系数，是一个C维向量；：B样条节点，是一个维向量；𝑑：B样条膨胀（是一个维向量）；：B样条基函数（n代表基函数次数，论文实验中n取3）

方法

框架

Step1(BTC):1.将LR图像通过encoder得到潜在编码z（论文中使用RDN作为encoder）；2.用系数估计器、节点估计器，从z中得到B样条的C个系数和2个节点；3.用膨胀估计器，从s=2/r中得到B样条的膨胀d；4.由于系数和节点是由LR中的一个像素的z预测出的，而LR图像中的一个像素对应到HR中r×r的区域，因此，用最近邻空间插值来放大系数和节点。

Step2(B样条表示):根据Problem formulation中的二元不均匀B样条，将输入参数进行B样条表示。

Step3(推测查询点RGB值):利用Problem formulation中的隐式神经表示的解码器(∙)得到查询点RGB值；最后，再将解码器得到的值和LR图像经双线性插值得到的值（长跳跃连接）相加，作为最终输出。（长跳跃连接是为了丰富高频分量并稳定收敛，因为方法本身倾向于预测低频信息，加入长跳跃连接之后就能避免只关注低频分量。）

B样条基函数形式

采用卷积定义，是的n次卷积（：在|𝑥|<0.5时取1，其余取0）

实验

与其他方法的对比

下图为场景文本识别结果，文章比较了Meta-SR、LIIF等方式的置信度。可以看出，BTC具有优势。

下表以PSNR为指标，对比几种超分辨率方法的结果。可以看出，BTC具有优势。

计算资源消耗对比

下表为计算资源消耗对比（内存占用和时间消耗）。可以看出，BTC占用内存较少，并且时间消耗较短。

消融实验

下表是消融实验结果，其中“-C”、“-K”、“-D”分别表示去除系数、节点、膨胀估计器之后的结果，“-L”表示去除长跳跃连接，“” “” 表示B样条基函数β次数取为2、4。可以看出，B样条参数估计器、长跳跃连接、基函数次数选为3的方法都能提高模型效果，其中节点估计器的影响远大于其他措施。

结论

本文提出了一种用于任意尺度SCI SR的B样条纹理系数估计器（BTC）。本文基于BTC的SR方法在屏幕内容数据集上取得了最佳性能，且模型较小。此外，该方法在恢复文本或图形的细边缘方面优于其他任意尺度SR方法。与利用傅立叶表示的LTE相比，BTC由于利用了有紧支撑和正约束特点的B样条，减少了由于过冲或下冲导致的伪影。此外，BTC显示出高效的内存消耗和计算时间，且SR结果通过场景文本识别网络被认定为具有最高的置信度。

继续阅读

阅读原文