IMCL成果速递
【内容提供】李鑫
【编辑】林诗琪
【单位】IMCL (Intelligent Media Computing Lab, 中国科学技术大学智能媒体计算实验室)
【论文链接】:https://arxiv.org/abs/2106.03511
【发表期刊】:TIP(IEEE Transactions on Image Processing)
摘要
  在智能分析应用场景中,对于多媒体数据压缩的度量准则不仅需要考虑人眼感知评价准则,也同时要考虑智能分析任务下的感知评价准则,因此相应的编码率失真优化策略也相应发生变化。然而,传统编码框架无法适配复杂优化准则进行自动的率失真优化比特分配,通常只能采用启发式的方法实现次优的结果。为解决这一根本挑战,我们突破性地通过强化学习技术解决传统编码框架无法支持梯度回传进行端到端优化的问题,构建统一的基于分级强化学习的比特分配框架(RSC-Reinforcement learning based Semantic Coding),分别自动进行帧级码率分配优化和编码块(CU)级的码率优化分配决策,进而决定最终的编码器优化参数选择策略,以适用于不同智能应用下的混合失真度量准则。我们将此方案在H.265标准参考编码软件上进行验证,实验表明,我们的方案可以在相同的任务精确度下,节省34.39% 到 52.62%的编码码率。
方法简介
  随着机器学习技术的蓬勃发展,智能分析应用需求日渐普及,这给多媒体数据压缩方案提出了新的要求,即数据压缩需要保证与智能分析任务相关的语义信息保真度。然而传统的编码器在结合智能分析任务下的复杂优化准则时存在两方面的主要挑战:1)传统混合编码器是在像素级进行基于块编码,无法针对语义信息进行直接编码。2)传统混合编码器无法进行端到端自动优化,因此无法根据语义信息进行编码参数的自适应更新。为解决以上挑战,我们突破性地通过强化学习技术实现了传统编码器针对于复杂优化准则的优化过程,实现了适配复杂优化准则的自动编码优化框架。
  具体来说,我们设计了如下图的基于强化学习的编码框架。整个框架由三个部分组成,分别是强化学习代理网络,语义感知评价准则的计算模块,以及传统编码器。其中强化学习代理网络负责根据任务和视频内容进行编码量化参数表的决策,语义感知评价准则的计算模块负责计算编码前后视频语义信息的丢失,传统编码器负责根据强化学习网络代理提供的比特分配参数进行编码,并输出的编码开销,参考信息和重建图。在得到编码开销,语义信息损失后,强化学习网络将根据奖励函数进行量化表的调整,从而得到最优的任务驱动编码器。通过上述方式,我们将传统编码器的复杂优化准则的率失真优化过程建模成了强化学习的马尔科夫过程,因此可以实现离线的语义编码参数决策。

  为了实现适配于传统编码器的通用语义保真度度量准则,我们根据不同的任务设计了统一的像素级语义图,如下图所示,对于分类任务,我们利用Grad-CAM [1] 的梯度映射实现了分类任务语义的像素级语义图生成。对于分割和检测任务,我们利用Mask R-CNN [2] 实现像素级语义图生成。利用上述方式,我们可以统一不同任务的保真度计算,从而保证了任务驱动编码算法的通用性和泛化性。
我们做出了以下贡献:
a.    我们第一个通过基于强化学习的语义比特分配实现了适配复杂优化准则的自动编码优化框架。
b.    我们成功利用语义重要性图差异表征了不同任务的像素级语义保真度,并利用强化学习整合语义度量准则到传统编码的率失真优化过程中。
c.    我们的算法可以实现相同任务准确率下,比HEVC多节省32.4%-52.6%的码率,并可以扩展到各种传统编码器(VVC,AVC等)
实验结果

1. 我们分别在分类,分割和检测任务上验证了我们算法的性能。相比于标准编码器HEVC,我们的算法可以在分类,分割,检测任务上分别多节省52.62%, 51.01% 和34.39%码率。
2. 为了验证我们算法的可扩展性和泛化性,我们将仅在图像分类任务上训练出来的强化学习网络应用到分割和检测任务上。如下图所示,虽然该网络从未接触过分割和检测样本,却可以得到较好的性能。
3. 从时间复杂度上评估,我们的RSC算法并不会增加解码器时间,且在编码器上,我们的算法可以做离线决策,因此多出的编码时间可以通过并行化进行去除。
总结

  本文主要介绍了适配复杂优化准则的自动编码优化框架。这也是首个利用强化学习网络实现智能分析任务的通用编码框架。我们根据不同任务设计了统一的像素级语义保真度度量准则,并通过强化学习成功实现了针对复杂优化准则的自动RDO决策。我们在分类,分割和检测上的实验结果展示了我们算法可以在标准编码器HEVC上达到多34.39%-52.62%的码率节省。通过整合不同任务的度量准则,我们的算法可以直接迁移到其他智能任务。不需要重新进行框架和模型的设计,具有较强的工业应用价值和前景。
参考文献

[1] Selvaraju R R, Cogswell M, Das A, et al. Grad-cam: Visual explanations from deep networks via gradient-based localization[C]//Proceedings of the IEEE international conference on computer vision. 2017: 618-626.
[2] He K, Gkioxari G, Dollár P, et al. Mask r-cnn[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2961-2969.
- End -
继续阅读
阅读原文