【内容提供】范孝帅

【单位】
IMCL (Intelligent Media Computing Lab, 中国科学技术大学智能媒体计算实验室)
论文链接:
https://arxiv.org/abs/2208.11673
///论文速览///
        JPEG作为一种常用的图像压缩格式,在图像的传输和存储中得到了广泛的应用。为了在保持JPEG图像质量的同时进一步降低压缩成本,人们提出了无损转码技术的需求,将压缩后的JPEG图像在DCT域中进行再压缩但是不改变原图任何信息。以前的工作通常以缺乏泛化能力和灵活性的手工方式减少JPEG压缩图像中量化DCT系数的冗余并优化熵编码的概率预测。为了应对上述挑战,我们提出了通过联合有损和残差压缩学习的无损JPEG转码框架。该框架不仅优化熵估计,而且关注DCT系数中存在的冗余。据我们所知,该工作是第一个利用基于深度学习有损变换编码来减少JPEG压缩图像紧凑表示域中DCT系数的冗余。为了实现JPEG压缩图像的无损转码,该框架引入了残差压缩的熵模型和基于上下文的熵编码模型,可以有效地学习到残差量化DCT系数的分布并压缩。由于基于深度学习的有损变换编码和残差熵编码的协作,我们提出的JPEG无损转码架构在JPEG图像的再压缩具有较大优势。在多个图像压缩评估经典数据集上进行的大量实验表明,该框架相比于JPEG压缩图像可以再平均节省21.49%的比特,比最新的具有JPEG无损转码功能的JPEG-XL在比特节省方面高出3.51%。
///方法描述///
    我们从两个角度实现高效JEPG无损转码,即如何减少DCT系数中的空间冗余以及在熵模型中如何准确估计概率分布。但是原始JPEG图像中量化DCT系数的分布不适合网络学习,我们对其首先做了预处理,如下图,根据不同的频率分量将JPEG量化的DCT系数重新排列成3DDCT image,这使得网络更容易捕获空间冗余。这样来自相同频率的分量在相同的空间维度上聚合,这简化了有损变换编码的空间冗余消除。并且频率分量在信道的维度上是一致的,允许更有效的熵编码。
    我们提出了一种基于深度学习的端到端无损JPEG转码框架,自适应且更高效地进一步减少JPEG图像的冗余。如图所示它由两个关键组件组成,即基于深度学习的有损变换编码模块和残差熵模型。其中,基于深度学习的有损变换编码用于去除JPEG图像DCT系数之间的冗余。为了实现精确的熵编码,残差熵模型采用可学习的概率分布预测模型。使用mask conv的上下文模型从残差中提取上下文信息。上下文信息和有损重构信息可以作为条件用于熵模型的概率估计。结合有损变换编码和残差熵编码生成更紧凑的比特流以进一步压缩JPEG图像。
///实验分析///
    我们在四个常用的压缩数据集上评估我们的模型:Kodak数据集、DIV2K验证集和CLIC验证数据集。由于我们的工作是为无损JPEG 转码而设计的,因此测试数据集已被压缩为JPEG格式的图像。
    1、转码性能比较。为了验证我们框架有效性,我们将其与常用的无损 JPEG 转码方法(LeptonJPEG XL)进行了比较。如图所示,我们的框架实现了21.49% 的明显比特节省,平均比Lepton高出 1.97%,比JPEG XL高出3.51%
    2、泛化性能。我们通过将在JPEG质量级别95上训练的模型直接应用于不同的JPEG质量级别(55657585)来验证我们框架的泛化能力。可以看出,我们的方法可以适应不同JPEG 质量级别,如图所示。
继续阅读
阅读原文