来源
:MHV '22

主讲人
:Tiberio Uricchio

内容整理
:冯冬辉

低质量的视频非常影响观看体验。Small Pixels 提出了一种基于 GAN 的后处理增强方案,可以实时提升视频质量或减少直播带宽,并提供了相应的产品服务。该方案在 VMAF,LPIPS 指标以及 DSIS 主观测试上都取得了较好结果。
目录
  • 引言
  • 增强效果
  • 关键收益
  • 神经网络技术
  • 客观与主观结果
  • 产品与服务

引言

当下视频会议和视频流媒体用户正在以指数增长。即使用户有较高的带宽,也难以保证高质量的视频。事实上,67% 的人认为视频质量是观看直播时最重要的因素(Influencer MarketingHub)。一般或低质量体验的 OTT 视频服务损失了至多 25% 的收入(Verizon)。
Small Pixels 提出了一种 AI 后处理增强模块。这个增强模块与具体编码器无关,可以以软件插件的方式应用到任何现存的流程上,甚至当 AI 引擎可用时也能启用硬件加速。它可以增强任何编码器和任何视频,可以应用在当下的编码器,也可以应用在下一代编码器。它从低质量编码后视频开始,添加编码中丢失的高分辨率细节。
AI 后处理增强模块

增强效果

如下是一个 Demo,红线左边是原始的 540p 内容,右边是重建的 2160p 内容,增强视频的边缘看起来更加锐利。
增强 Demo
如下是一些图片放大后的细节对比,包括低速运动场景,高速运动场景,以及低码率原始视频的重建结果。

关键收益

这一技术有四个关键收益。
  • 提升感知质量,更高的视频质量和分辨率可以提升用户的满意度。
  • 提升用户触及,更高的压缩率意味着更低的带宽消耗,这样可以触及更多低带宽情况的用户。
  • 减少传输花费:节省的花费与可能的计算成正比,并且依赖于具体内容。
  • 未改动编码流程:只在解码设备端加入插件,并可以通过软件更新。

神经网络技术

这一技术基于对抗神经网络,其中辨别器 D 尝试辨别给定的图片是否真实,生成器 G 试图生成能够迷惑判别器的图片。当完成训练后,生成器就能重建丢失的细节。
GAN 模型
对于特定领域的图片,例如人脸,该方法可以达到更高的压缩率。例如在移动端 30fps 的人脸视频,传输 128 像素视频,重建 512 像素视频,可以减少约 98% 的码率。
低分辨率编码人脸图形
重建人脸图像

客观与主观结果

通过传输 720p HEVC 视频并重建 1080p 视频,该技术在同等码率下最高有 44% 的 VMAF 分数提升,在同等质量下最高有 33% 的码率节省。在 LPIPS 指标(越低越好)下,则有最高 47% 的指标改进,或最高 56% 的码率节省。
在主观体验上,收集了 32 位测试者的 DSIS 数据,75.91% 的用户倾向于选择生成的 1080p 视频,而非直接编码的 1080p 视频,这一结果令人震惊。

产品与服务

该技术专注于提供两种价值,质量增强和节省带宽。在此基础上提供了云端服务器以应对离线视频增强,或者内部部署服务器来应对实时视频增强,此外还有网页端播放器的 SDK 来节省带宽。
产品与服务
最后是网页视频播放器 Demo 以及云端服务器 Demo。在云端,用户可以上传视频,并选择不同的内容特性和超分辨率尺度对应的增强器。用户还可以额外勾选在线处理,以生成 RTSP 直播流。
附上演讲视频:
继续阅读
阅读原文