本文介绍一种利用AI工具来增强传统视频编码的编码标准,主要简单介绍一下该标准目前的发展状况。
随着编码标准的迭代与演进,编码视频的质量要求也逐渐提高,传统的编码方式在码率、失真、复杂度等各项指标之间难以取得一个很好的权衡。近年来,AI算法在计算机视觉和图像处理领域取得了不小的成果,人们也开始研究将AI算法引入视频编解码领域来实现更有效的编码。MPAI也就是在这背景下所创立的。
将AI引入视频编解码的方式有两种:采用基于神经网络的编码方案,以及在传统编码方案当中引入神经网络来改善原有的模块或直接添加新的NN模块。MPAI对于两者都在推进相应的标准,前者对应的是MPAI-EEV (AI-based End-to-End Video Coding),后者对应的是MPAI-EVC (AI-Enhanced Video Coding),也就是本文所介绍的内容。MPAI-EVC的目标是满足中短期需求,而MPAI-EEV的目标是满足长期需求。
MPAI-EVC基于的是EVC (Essential Video Coding) 传统编码标准。MPAI-EVC Evidence project的目标是在EVC的基础上取得至少25%的提升。目前项目的研究主要三个环节:帧内预测 (Intra Prediction)、超分 (Super Resolution) 以及环路滤波 (In-Loop Filters),对应图中的1、6、8模块。
在传统编码方案中,帧内预测有多种预先定义好的模式,如planar模式、DC均值模式等,编码器根据不同模式的效果来决定选用哪种模式。传统预测模式计算的阶数是有限的,而且需要人为手动设计,而神经网络能够自动进行更加复杂的推理拟合。
MPAI将帧内预测类比于图像修复的问题,所提出的方法是将一个64x64的图像块右下角32x32的部分(图中的P3区域)掩盖起来,输入Anto-Encoder[1],然后得到一个32x32的预测块,通过使预测块和原始图像之间的绝对误差 (ABS) 最小化训练得到NN的参数。
受VGG网络的启发,MPAI将原来的网络结构转变为5组叠放的卷积层,每层有3x3个滤波器,并插入二次采样。用deep tool代替DC模式后,帧内预测的BD-rate和BD-PSNR的改善如表所示。此外,他们发现如果将deep tool直接添加到原来的预测模式而不是替换DC模式提升效果反而会下降。他们认为这可能是由于标识新的预测模式所带来的开销导致的。
EVC会根据输入的情况进行下采样减小数据规模,所以需要在解码时进行上采样来还原到原本的分辨率。在所调研的多种超分算法当中,MPAI选择了DRLN (Densely Residual Laplacian Network) 作为进一步深入研究的对象。该网络采用级联的结构,低频信号旁路,高频信号进入网络推理后再进行叠加。由于引入拉普拉斯金字塔,该网络能够在多个尺度上学习特征 (feature),同时通过连接前后级可以实现特征图 (feature map) 的共享。
他们用自己所定义的数据集和验证集进行了训练和测试,BD-rate的结果如左图所示。可以看到BD-rate平均取得了-3.14%的改善,但在很多数据上都取得了相反的效果,对于这一点他们并没有说明原因,可能是由于当前所采用的网络结构较传统算法而言重建的效果增强但速度却未显著提高。在图像质量方面可以看到在多次迭代之后能够取得一个不错的效果。如右图所示 (HD to 4K),MSE达到了10-4量级,PSNR达到了40dB以上。
当前帧内预测和超分的工具越来越多,但实际使用过程当中需要将两者结合起来使用。MPAI计划对于两者的组合进行测试,预计的测试方案有如上三种。
环路滤波是为了减少图像解码后出现的blocking、blurring、ringing等不良现象。在这一环节,MPAI参考了论文A Deep Learning Approach for Multi-Frame In-Loop Filter of HEVC[2],打算将其开源的代码从HEVC中转换到EVC codec框架中,目前正在研究HEVC与NN的通信方式和NN所需要的数据信息。
未来MPAI的研究会主要聚焦于四个方面:运动补偿、帧间预测、量化、编码。对于以上几个方面,目前学界也已经有了相关的研究,但大部分是用于HEVC的,这里简单列举几个研究方向,更多的研究成果可以参考论文[3]:
(1)对于帧间预测,可以采用拉普拉斯金字塔结构将前面的数帧纳入到当前帧的推测过程当中;由于运动,两帧之间的像素对应关系可能并不是整数位置对应,对于小数位置像素的处理,可以将其视为一个插值问题,采用超分的方法来做,也可以采用多帧对应的方式来做。同时还可以将帧内与帧间预测相结合,在帧间预测时将当前帧的context也纳入考虑;
(2)对于编码,可以采用NN来进行概率分布预测,现有的PixelCNN、PixelRNN可以帮助进行编码。同时NN也可以用于预测预测模式的概率分布和block DC系数的概率分布。
关 注 我 们 
  实验室网站:http://viplab.fudan.edu.cn/
  OpenASIC官方网站:www.openasic.org
  知乎专栏:http://zhuanlan.zhihu.com/viplab
  微信公众号:OpenASIC
继续阅读
阅读原文