您当前的位置是:  首页 > 资讯 > 国内 >
 首页 > 资讯 > 国内 >

美迪格威 | 白皮书:采用GPU做云原生编解码转换(3/3)

2022-03-18 15:08:37   作者:   来源:CTI论坛   评论:0  点击:


  云原生构建应用简便快捷,部署应用轻松自如、运行应用按需伸缩,在通信行业,服务提供商提供云原生实时通信的能力将在很大程度上取决于媒体处理平台的能力及其对各种编码的支持。本文介绍采用GPU做云原生编解码的优势。我们将以三篇文章来分析,这是第三篇:GPU转码性能、成本和质量
  GPU转码性能、成本和质量
  音频转码的GPU性能和成本
  为了更好地确定使用GPU与CPU的固有价值,我们分析了三个变量: 性能 (支持的会话数),功耗 (# 会话/瓦特) 和成本 ($/会话)。  对于CPU,我们使用了英特尔至强E5-2698 v3 @ 2.10GHz,16-core dual socket card。  对于GPU ,我们使用了Nvidia P100。图3描述了我们分析的配置。  注意: 对于下面讨论的所有分析,我们认识到这是一个时间点评估。  最肯定的是,CPU和GPU的处理能力将继续提高,但我们相信GPU的增量将继续超过CPU可实现的增量。
  对于规模、功率和成本的计算,CPU是完全配置和完全加载的。GPU完全符合成本,但对于规模和功耗的分析,仅加载到可以在CPU处理中使用瓶颈的程度。这在使用少于4个GPU的低复杂度编解码器类型中最为明显。此外,CPU处理被设置为不超过85% 利用率。
  GPU与CPU性能对比:会话数
  图3.1显示了使用CPU+GPU进行转码而不是仅使用CPU时可能支持的会话数的增量或增加。  假定100% 会话被转码, 可以看出,根据编解码器类型,GPU将会话数增加到1366%。
  
  GPU与CPU功耗对比,会话数/瓦
  图3.2显示了每瓦特使用的会话数。在此分析中,服务器和CPU的功耗是常见的,因此功耗差异基于所使用的GPU数量。与总体会话计数所见的结果一样,每瓦会话数在会话数量上显示出非常强劲的增长,根据编解码的类型,范围从54% 到456% 增加
  GPU与CPU成本消耗对比:美元/每会话
  图3.3显示了每个会话的美元成本以及使用GPU潜在的成本节省。  在这里,通过转移到GPU解决方案可以实现的节省范围从使用AMR-NB的65% 到使用EVRC B0的492% (9.3 kbps)。
  
  使用浮点处理的GPU音频质量
  曾经一个反对使用GPU进行转码的论点是:使用CPU进行定点处理转码更有效,可以产生更好的语音质量。这与专为浮点计算而设计的GPU形成对比。如果此论点成立,则直接意味着使用GPU会导致语音质量下降。实际上,通过查看实际测试结果可以证明该论点是错误的。
  我们分析了CPU (固定点) 与GPU (浮点) 的语音质量结果,用于转码三种编解码类型: G729AB; AMR-WB; 和EVRC-WB,使用G.729标准规范中的语音测试向量。语音质量测量是使用PESQ标准进行的。表1显示了完整的PESQ测量结果。亮点是:
  G729AB: GPU在CPU语音质量测量的0.4% 之内。请注意,测试是在没有不连续传输 (DTX) 的情况下运行的,也就是“沉默抑制”,因此在沉默期间发送了数据包。
  EVRC-B: GPU的语音质量测量与CPU的语音质量测量相差0.9% 或更小。在两个比特率上进行了测试: 9.3kbps 和8.5 kbps,结果相似。
  AMR-WB: GPU测量对比CPU测量,范围从0.7% 好~0.55% 差。这个测试是在从6.6 kbps到23.85 kbps的比特率的整个频谱上进行的
  
  总之,我们的测试表明,使用带浮点处理的GPU的语音质量测量比使用固定点处理的CPU更好,或在1% 内。  根据我们的经验,<1% 差异将不会导致语音质量的感知下降。有关固定点与浮点语音质量的其他研究,请阅读3GPP TR 26.976版本10.0.0版本10, AMR-WB语音编解码器文档的性能表征。具体地说,附件B和B.7章节确认了我们发现的使用浮点与固定点编码的AMR-WB PESQ分数的比较。
  从表2可以看出,根据转码类型,GPU的使用可以将性能提高到480%。这种增量性能带来了137% 的增量成本。因此,基于转码类型或规模要求,GPU的使用比仅使用CPU更具吸引力
  音频和视频混合转码
  正如我们从音频和视频的性能评估中看到的那样,GPU为规模和性能提供了非凡的价值。那么,当音频和视频转码都在同一台服务器上执行时,性能会如何呢?为了分析这一点,我们重新使用了图4中的配置,并对音频进行了基准测试。表3仅显示了AMR-WB<-> G.711音频转码的比较
 
  接下来,我们添加了视频。对于GPU,为了适应两种类型,我们分配了40个内核中的12个用于视频转码,并将其余28个内核分配给音频转码。表4显示了将视频和音频转码放在一起的汇总结果。对于组合转码,仅使用CPU,视频转码会话平均下降67%,音频转码会话下降25%。相反,当使用CPU和GPU时,视频转码会话的数量保持恒定,并且音频转码会话仅减少6.25%。
  总结
  媒体转码现在可以在云中交付,等于或比使用传统DSP可以实现的性能更好。尽管最初在虚拟环境中进行了媒体转码,使用CPU,该解决方案不足以实现规模,并且始终将只是未来的垫脚石。  现在很明显,未来就在这里,它是使用GPU进行实时通信的转码-云中的通信服务。
  这份白皮书表明,进行音频转码在性能方面GPU远远优于CPU,成本、功率和在语音质量方面都等于CPU。当将视频转码添加到混音中,GPU再次成为超级解决方案,使基于GPU的媒体互通成为基于虚拟云部署的最佳解决方案


【免责声明】本文仅代表作者本人观点,与CTI论坛无关。CTI论坛对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

专题

CTI论坛会员企业