AI 视频后处理增强服务

来源
：MHV '22

主讲人
：Tiberio Uricchio

内容整理
：冯冬辉

低质量的视频非常影响观看体验。Small Pixels 提出了一种基于 GAN 的后处理增强方案，可以实时提升视频质量或减少直播带宽，并提供了相应的产品服务。该方案在 VMAF，LPIPS 指标以及 DSIS 主观测试上都取得了较好结果。

引言
增强效果
关键收益
神经网络技术
客观与主观结果
产品与服务

引言

当下视频会议和视频流媒体用户正在以指数增长。即使用户有较高的带宽，也难以保证高质量的视频。事实上，67% 的人认为视频质量是观看直播时最重要的因素（Influencer MarketingHub）。一般或低质量体验的 OTT 视频服务损失了至多 25% 的收入（Verizon）。

Small Pixels 提出了一种 AI 后处理增强模块。这个增强模块与具体编码器无关，可以以软件插件的方式应用到任何现存的流程上，甚至当 AI 引擎可用时也能启用硬件加速。它可以增强任何编码器和任何视频，可以应用在当下的编码器，也可以应用在下一代编码器。它从低质量编码后视频开始，添加编码中丢失的高分辨率细节。

增强效果

如下是一个 Demo，红线左边是原始的 540p 内容，右边是重建的 2160p 内容，增强视频的边缘看起来更加锐利。

如下是一些图片放大后的细节对比，包括低速运动场景，高速运动场景，以及低码率原始视频的重建结果。

关键收益

这一技术有四个关键收益。

提升感知质量，更高的视频质量和分辨率可以提升用户的满意度。
提升用户触及，更高的压缩率意味着更低的带宽消耗，这样可以触及更多低带宽情况的用户。
减少传输花费：节省的花费与可能的计算成正比，并且依赖于具体内容。
未改动编码流程：只在解码设备端加入插件，并可以通过软件更新。

神经网络技术

这一技术基于对抗神经网络，其中辨别器 D 尝试辨别给定的图片是否真实，生成器 G 试图生成能够迷惑判别器的图片。当完成训练后，生成器就能重建丢失的细节。

对于特定领域的图片，例如人脸，该方法可以达到更高的压缩率。例如在移动端 30fps 的人脸视频，传输 128 像素视频，重建 512 像素视频，可以减少约 98% 的码率。

客观与主观结果

通过传输 720p HEVC 视频并重建 1080p 视频，该技术在同等码率下最高有 44% 的 VMAF 分数提升，在同等质量下最高有 33% 的码率节省。在 LPIPS 指标（越低越好）下，则有最高 47% 的指标改进，或最高 56% 的码率节省。

在主观体验上，收集了 32 位测试者的 DSIS 数据，75.91% 的用户倾向于选择生成的 1080p 视频，而非直接编码的 1080p 视频，这一结果令人震惊。

产品与服务

该技术专注于提供两种价值，质量增强和节省带宽。在此基础上提供了云端服务器以应对离线视频增强，或者内部部署服务器来应对实时视频增强，此外还有网页端播放器的 SDK 来节省带宽。

最后是网页视频播放器 Demo 以及云端服务器 Demo。在云端，用户可以上传视频，并选择不同的内容特性和超分辨率尺度对应的增强器。用户还可以额外勾选在线处理，以生成 RTSP 直播流。

附上演讲视频：

继续阅读

阅读原文