来源
:https://www.elecard.com/page/article_intel_vs_nvidia

作者
:Vadim Blinov, Product Manager of Elecard CodecWorks

翻译
:钟宏成

视频转码是一项非常耗费资源的任务,CPU 转码的成本可能相当昂贵,使用 GPU 转码可以节省资源。本文以 Intel 的 QuickSync 和 Nvidia 的 NVENC 为例,从转码速度、质量、功耗、机架空间以及专业应用方面,讨论了这些解决方案的主要优缺点。
目录
  • 最大可能的转码通道数
  • 每个通道的价格,包括服务器成本
  • 输出与输入流的结果质量
  • 等负载下的功耗
  • 服务器机架空间占用
  • 专业应用
  • 结论
视频转码是一项非常耗费资源的任务。使用 CPU 转码可能相当昂贵,尤其是随着 OTT 广播的增长,每个频道有多个配置文件,GPU 可用于节省资源。本文以英特尔的 QuickSync 和英伟达的 NVENC 为例,讨论了这些解决方案的主要优缺点。
有趣的是,虽然在技术上是视频编码领域的竞争对手,但两家公司一直在并行发展,甚至在新芯片的生产方面进行合作。
首先,我们必须决定要比较的显卡:我们将只考虑能够 24/7 全天候运行的稳定解决方案——这在电视广播中是必须的。
对于英特尔,这很简单:我们将采用最新一代的 Xeon Coffee Lake CPU,Intel® Xeon® E-2246G 处理器,以及集成的 Intel® UHD Graphics P630 GPU。
对于英伟达,事情就有点复杂了。我们的选择是 Quadro RTX 4000 (8GB),它是 GeForce RTX 2070 Super (8GB) 的服务器对应,但与 RTX 不同,它并没有正式将并发处理限制为 3 个流。RTX 可以通过安装补丁(来自互联网)来消除此限制,但是,正如我们之前提到的,我们只会考虑稳定的、经过验证的官方解决方案。我们排除了较旧的显卡版本,因为由于缺少 B 帧编码功能,它们肯定会滞后于 HEVC 编码性能。
现在让我们指定具有所选图形解决方案的平台。
Intel 测试平台Nvidia 测试平台
CPUIntel® Xeon® E-2246GIntel® Xeon® E-2224
Video cardIntegrated graphics Intel® UHD Graphics P630Quadro RTX 4000 (8GB)
RAM2 х 8 GB (dual-channel support is important)16 GB
HDD or SSD128 + GB128 + GB
Supplier pricearound $1500around $3000

最大可能的转码通道数

现在让我们来最大可能转码通道数,以下是在 fastest 模式下,进行负载测试的结果。
Transcoding AVC FHD 10 Mbps to AVC FHD 8 Mbps @30 fpsTranscoding AVC FHD 10 Mbps to HEVC FHD 5 Mbps @30 fps
IntelUp to 12 channelsUp to 13 channels
NvidiaUp to 24 channelsUp to 14 channels
在这个比较中,英伟达在 AVC 转码方面的性能是英特尔的两倍,在 HEVC 转码方面几乎同样快。

每个通道的价格,包括服务器成本

现在我们知道了每台配置了集成 Intel 显卡或 Nvidia 显卡的服务器的 FHD (1920x1080) 通道的最大数量,我们可以根据已知的服务器价格计算每个 FHD 通道的价格。
Price per transcoded AVC channelPrice per transcoded HEVC channel
Intel$ 125$ 115
Nvidia$ 125$ 214
事实证明,价格没有差异,因此 Nvidia 的 2 倍性能优势完全被平台的价格所抵消。对于 HEVC 通道,当以最大通道数为目标时,即使用最快的编码算法并牺牲质量时,Nvidia 在每个通道上的成本要高得多。
暂时将并发通道数放在一边,我们现在将评估质量,因为比较同样可接受的质量比在快速模式下获得的质量要公平得多。

输出与输入流的结果质量

另一个值得注意的因素是视频压缩质量,毕竟,如果质量不可接受,那么拥有再多并发通道数也是是没有意义的。
下面展示了基于 PSNR 指标的质量比较图,英特尔 AVC 以蓝色显示,Nvidia AVC 以红色显示。
图:AVC 转码测试 PSNR 对比
我们可以从图中看到,两种解决方案的最终流质量几乎相同(译者:0.5~1dB 的 PSNR 差距可能不能称作“几乎相同”)。让我们使用 VMAF 指标比较流。
图:AVC 转码测试 VMAF 对比
下图比较了 Intel 和 Nvidia HEVC 流与输入流的质量,分别以蓝色和红色显示。
图:HEVC 转码测试 PSNR 对比
该图表明我们的比较并不完全有效,因为 Nvidia 的质量比 Intel 高出近 2 dB。因此,我们在 Nvidia 和 Intel 的 GAcc 模式(意为“GPU 加速”,即在 CPU 支持下执行编码,而不是仅依赖 GPU)以最大可能质量进行了多次测量,并获得了以下结果 Intel HEVC GAcc 和 Nvidia HEVC 分别以蓝色和红色显示:
图:HEVC 转码测试 PSNR 对比(Intel GAcc)
编码质量几乎相同,但两个系统的性能下降到以前水平的一小部分。这一次,Nvidia 只能转码四个 FHD HEVC 通道,而 Intel 只能转码两个。根据新数据,我们现在可以重新计算质量优先前提下每个通道的价格:
  • Intel 的每个转码 HEVC 通道 750 $;
  • Nvidia 的每个转码 HEVC 通道 750 $。
事实上,这与 AVC 的每个通道的相对成本相同。

等负载下的功耗

让我们考虑运行生产系统的另一个重要因素:平台的功耗。从我们在最大平台负载下的测试中,我们发现:
  • Nvidia 平台功耗约 200 W。
  • Intel 平台的功耗约为 75 W,但由于它的通道数减半,我们将该值乘以 2,总共约 150 W。
事实证明,Nvidia 平台在做同样的工作时多消耗 50 W (33%)。

服务器机架空间占用

由于要转码的通道数量众多,因此经常会出现物理服务器空间的问题。
对于英特尔,存在特殊的刀片服务器平台,其中一台 3U 服务器可以容纳 8 到 14 个刀片(不同外形的成熟服务器)。一个 3U 平台能够转码多达 168 个 FHD AVC 通道。如果使用常规机架服务器而不是刀片服务器,那么此数量的通道将需要 14U 的机架高度。
在这方面,Nvidia 的情况更为复杂,因为显卡本身占用了平台中的额外空间,而且通常很笨重。每 1U 服务器配备 1 个显卡,168 个 FHD AVC 通道将占用 7U 机架空间。通过在一个平台上安装多个显卡可以节省每个平台的成本,但这不太可能带来空间节省,因为容纳 2 或 3 个显卡需要 3U 甚至 4U 的平台。

专业应用

除了视频转码之外,还有其他专门的任务,例如为监控解码视频或对来自 SDI/NDI 采集卡的输出进行编码。基于 Intel 的解决方案能更好地为这些应用程序提供服务,因为它们的规模通常较小,因此不可能充分利用 Nvidia 平台的资源。即使你需要对一个 SDI 信号进行编码,也需要几个通道,而且很少有需要编码多达 24 个 SDI 信号的项目。此外,在 1U 平台上容纳 PCI SDI 采集卡和 PCI 视频卡将非常困难——您必须选择一个具有不同机架高度的平台,或者找到一个有足够空间容纳两张卡的平台,这是罕见的。
解码比转码占用的资源更少,因此,理论上,您可以使用 Nvidia 来直观地监控 24 个以上的 FHD AVC 通道。但因为 PCI 总线传输速度的限制,实际为 8 个左右,因为不可能通过 PCI 总线发送更多解码(未压缩)的视频数据。使用 Intel 不会出现这个问题,因为 GPU 与 CPU 集成在一起。
平心而论,值得注意的是,Nvidia 在转码超高清内容方面更具吸引力,因为您可以在单个 GPU 上实现多配置文件转码。另一方面,Intel 无法在一个 GPU 上对多配置文件 UHD 内容进行转码,因此需要一种在服务器之间分配流的机制,这种解决方案称为分布式转码。

结论

基于以上对比,我们可以确定两种解决方案的主要优势。
Intel 的优势
  • 紧凑型刀片服务器占用的垂直机架空间更少;
  • 更低的功耗;
  • 视频解码和编码应用的理想选择
Nvidia 的优势
  • 单个 GPU 核心的更高密度编码;
  • 通过正确选择显卡和在单个平台上安装多个显卡来节省成本的潜力
在对两个解决方案的各个方面进行了比较后,我们现在可以得出结论,它们是密切的竞争对手,很难确定明显的赢家。
考虑到 Intel / Nvidia 提供的平台工具的具体实现以及整个硬件和软件解决方案的高级功能等方面的重要性,选择转码硬件的关键考虑因素可能是其软件供应。其他方面包括解决方案价格、软件功能、保修、成功项目的历史、轻松定制、SLA、维护工程师的能力等。
继续阅读
阅读原文