在实时互动场景中,视频画质是影响用户互动体验的关键因素,从流畅、标清到高清、超高清等,分辨率更高的图像往往比低分辨率的图像包含更多的细节和信息,给用户的视频互动带来更好的体验,这也促进了用户在实时互动中对视频画质的要求越来越高。
然而在很多实时互动场景中,受到设备性能、传输成本、用户带宽等限制,传输的往往是低分辨率的视频,因此为了提升视频画质质量,进而提升用户的观看体验,需要借助视频超分辨率技术,在用户端将接收到的低分辨率视频重建成纹理丰富、细节清晰、观看体验佳的高分辨率的视频,这个过程往往会用到超分技术。
超分算法在业内已经不是新词,在介绍声网的多倍实时超分前,我们先来看看目前行业主流的超分算法都有哪些?超分算法主要分为非实时与实时处理两种类型。我们经常会看到某某视频网站将一些年代久远、低分辨率、低清晰度的老视频转换成当前主流的 720p、1080p、2k 的高分辨率视频,这种是在线视频行业比较主流的基于云端服务器处理的“非实时超分算法”,这类超分适用的场景是追求更高分辨率、更清晰的视频观看体验,对处理速度的实时性没有要求,并且算力充足,可以让年代久远的视频,焕发新的活力。但非实时超分算法计算量普遍比较大,只能适用于对实时性没有要求的场景。
在实时互动的场景中,就需要用到实时处理的超分算法,这其中主要包含云端、终端处理两种方式,在云端服务器实时处理的超分算法计算量比第一种非实时的小,在超分效果和处理速度做了权衡,保证较好的超分效果的同时,可以满足服务器上实时处理的要求。但弊端也非常明显,由于需要在 GPU (图形处理器)服务器上部署,并且一台服务器只能同时处理有限路视频,当处理大量并发的实时视频流时,则需要部署大量的 GPU 服务器,这种算法的使用成本比较高,而终端的超分算法可以很好的解决这个问题。
终端超分算法可在用户的终端进行视频播放时,对视频画面进行实时后处理,从而在提升视频观看画面主观视觉效果的同时不增加企业传输带宽成本。目前业内很多主流的终端实时超分算法更集中在 PC 端,PC 端的设备相对可以提供更强的算力,实现高性能的视频画质实时增强。但当下随着实时互动场景的爆发,很多 RTE 场景集中在移动端,在移动终端用户的设备性能参差不齐,这就要求移动端实时超分的复杂度必须极低,这样才能在大部分移动设备中做到实时处理。如何在超低计算量的情况下还保持较好的视频超分效果,这成为了实时超分领域内的难点。
针对移动端的实时超分难点,声网人工智能算法团队经过持续的技术钻研,正式推出了业内首个基于移动端实时处理的多倍超分算法,该算法的优势是成本低、功耗小,不需要部署 GPU 服务器,仅依靠移动端设备自身的 CPU、GPU 或 NPU 来实时超分,以较小的算法计算量实现视频分辨率的多倍超分,有效增强了视频的画质,并降低视频传输的成本。 
由于移动端的算力有限,并且对算法的功耗、模型大小要求十分苛刻,这类算法的研发难度是极具挑战性的,既要保持较好超分效果,也要满足移动端实时处理的要求。传统超分的技术原理可以简单理解为插值+锐化,插值是将低分辨图像放大为高分辨率图像,锐化是使图像边缘更清晰的一种图像处理方法,插值法和锐化方法,都是人工基于观察、总结和试验出来的方法,存在一定的局限性,常常出现图像放大后出现模糊、锐化过度的现象。
而声网移动端实时超分的技术原理是基于深度学习算法进行丰富的视频数据训练,从大量的低分辨图像和高分辨图像对,有监督地学习低分辨到高分辨率的映射关系,实现图像放大后,细节丰富、画面清晰的效果,其超分效果、自适应能力明显优于传统的超分方法。
为了更直观的展示声网实时超分算法的应用效果,我们也制作了一段视频demo,展示了在采集端 360p 分辨率的视频经过声网多倍超分到 1080p 后的效果。

超分后1080p 视频(左)与360p 未超分视频的对比(右)
从视频中可以发现,360p 视频在开启多倍超分后,画质实现了明显的增强,视频中的鹅卵石与远处山脉的分辨率变的更加清晰,不仅保证了视频画质,还降低了视频的实时传输成本。
● 移动端最高支持 3 倍实时超分:声网多倍超分算法可以做到在移动端实时处理,支持 2 倍与 3 倍超分,例如 360p 两倍超分 720p,240p 3倍超分 720p,360p 3倍超分 1080p,并且经过测试,与行业其他超分算法相比,在同等计算量的条件下,声网的实时超分效果与画质表现更胜一筹。
● 覆盖机型广,中低端机型也能实时处理:声网多倍超分算法在移动端的机型覆盖非常广,iOS 可覆盖 iPhone6s 及以上机型,能够覆盖 95% 以上的 iOS 视频用户;Android 覆盖所有中高端机以及部分低端机,能够覆盖 85% 以上的安卓用户。
● CPU 消耗、SDK 内存消耗低:声网多倍超分算法对移动端设备的性能消耗占比极低,有着出色的能耗表现,例如在移动端 360p 超分至 720p,超分的模型跑在设备的 GPU上,几乎不会增加 CPU 消耗,单帧处理耗时平均在 10ms 以内。在 1 对 1 视频通话场景中,360p/15fps 的视频开启 2 倍或 3 倍超分后,SDK 的内存消耗只增加 10% 左右。
声网实时超分算法目前适用的场景分为三种:
● IoT 平台的实时互动场景:在智能硬件终端对音视频 SDK 的功耗要求非常高,一旦视频通话的视频传输太占功耗,就会造成硬件的续航时间下降,发烫发热等,对此,声网实时超分可以将硬件设备端的 720p 视频以 360p 进行采集,并通过 360p 进行传输,在接收端将接收到的 360p 视频增强到 720p,不仅保证了智能硬件终端的视频画质,还降低了 SDK 功耗,增加了硬件的续航时间。
● 带宽受限的实时互动场景:在很多实时互动场景中由于网络带宽受限,无法传输高分辨率的视频,可通过声网实时超分进行降分辨率传输,将带宽受限的影响降到最低,最终在接收端进行恢复原视频的画质。
● 视频首帧出图清晰:在视频通话开启时,用户都会希望第一眼映入眼帘的画面就很清晰,但在一些实时互动场景中,为了快速出图,刚出来的视频画面是低分辨率,过一会才会变成清晰,从视频小流切到大流。通过声网实时超分可以在视频小流阶段就对视频画质进行放大增强,从而实现首帧的画面达到清晰,同时首帧出图的时延也不会受到影响。
如何评价实时超分算法的实现效果?
介绍完声网实时超分的特点、优势以及应用场景,很多人可能想问最后如何去衡量实时超分的效果?这里就要说到我们上一期声网 VQA 的技术解析文章,声网 VQA 利用深度学习算法实现对实时互动场景接收端视频画质主观体验 MOS 分的评估,解除了传统主观画质评估对人力评分的高度依赖,从而极大提高视频画质评估的效率,使实时的视频质量评估成为可能。点击文章链接可进一步了解声网 VQA 的技术原理。(声网 VQA:将实时互动中未知的视频画质用户主观体验变成可知
目前声网多倍超分已跟多个客户进行了集成,并得到客户高度认可,如您也想进一步体验或者接入声网多倍超分,可以点击下方的阅读原文留下您的信息,我们将与您做进一步的沟通。
继续阅读
阅读原文