首页 > 新闻 > 专家观点 >

华为:解读下一代视频压缩标准HEVC(H.265)

2012-08-01 11:14:42   作者:李军华 王浦林   来源:CTI论坛   评论:0  点击:


  概述

  H.264(AVC)从2003年5月草稿发布以来,凭借其相对于以往的视频压缩标准在压缩效率以及网络适应性方面的明显优势,逐步成为视频应用领域的主流标准。根据 MeFeedia的数据,由于iPad 以及其它新兴设备大多支持H.264 硬件加速,至2011年底,80%的视频使用H.264编码,并且随着支持H.264解码的设备不断增多,这一占有率还将进一步增长。

  但是,随着数字视频应用产业链的快速发展,视频应用向以下几个方向发展的趋势愈加明显:

  • 高清晰度(Higher Definition):数字视频的应用格式从720 P向1080 P全面升级,在一些视频应用领域甚至出现了4K x 2K、8K x 4K的数字视频格式;
  • 高帧率(Higher frame rate ):数字视频帧率从30 fps向60fps、120fps甚至240fps的应用场景升级;
  • 高压缩率(Higher Compression rate ):传输带宽和存储空间一直是视频应用中最为关键的资源,因此,在有限的空间和管道中获得最佳的视频体验一直是用户的不懈追求。

  由于数字视频应用在发展中面临上述趋势,如果继续采用H.264编码就出现的如下一些局限性:

  1. 宏块个数的爆发式增长,会导致用于编码宏块的预测模式、运动矢量、参考帧索引和量化级等宏块级参数信息所占用的码字过多,用于编码残差部分的码字明显减少。
  2. 由于分辨率的大大增加,单个宏块所表示的图像内容的信息大大减少,这将导致相邻的4 x 4或8 x 8块变换后的低频系数相似程度也大大提高,导致出现大量的冗余。
  3. 由于分辨率的大大增加,表示同一个运动的运动矢量的幅值将大大增加,H.264中采用一个运动矢量预测值,对运动矢量差编码使用的是哥伦布指数编码,该编码方式的特点是数值越小使用的比特数越少。因此,随着运动矢量幅值的大幅增加,H.264中用来对运动矢量进行预测以及编码的方法压缩率将逐渐降低。
  4. H.264的一些关键算法例如采用CAVLC和CABAC两种基于上下文的熵编码方法、deblock滤波等都要求串行编码,并行度比较低。针对GPU/DSP/FPGA/ASIC等并行化程度非常高的CPU,H.264的这种串行化处理越来越成为制约运算性能的瓶颈。

  为了面对以上发展趋势,2010年1月,ITU-T VCEG(Video Coding Experts Group) 和ISO/IEC MPEG(Moving Picture Experts Group)联合成立JCT-VC(Joint Collaborative Team on Video Coding)了联合组织,统一制定下一代编码标准:HEVC(High Efficiency Video Coding)。

  HEVC协议标准计划于2013年2月份正式在业界发布,目前整个框架结构已基本确定。截至2012年4月份,JCT-VC联合工作组已经召开了第八次会议,并于2012年2月17日发布了第一版内部草稿《High efficiency video coding (HEVC) text specification draft 6》,计划2012年7月发布第一版公开版草稿,在H.264标准2~4倍的复杂度基础上,将压缩效率提升一倍以上。

  下表列出了HM4.0(HEVC参考代码)相对于JM18.0 BD-Rate对比:

\

表1  HEVC相对于H.264的压缩效率提升数据列表

  由表中数据可见,在Low Delay的情况下,HEVC(HM4.0)相对于H.264比特率平均下降44%。

  HEVC(H.265)的技术亮点

  作为新一代视频编码标准,HEVC(H.265)仍然属于预测加变换的混合编码框架。然而,相对于H.264,H.265 在很多方面有了革命性的变化。HEVC(H.265)的技术亮点有:

  灵活的编码结构

  在H.265中,将宏块的大小从H.264的16x16扩展到了64x64,以便于高分辨率视频的压缩。同时,采用了更加灵活的编码结构来提高编码效率,包括编码单元(Coding Unit)、预测单元(Predict Unit)和变换单元(Transform Unit)。如图1所示:

\

图1 编码单元(CU)、预测单元(PU)、变换单元(CU)

   其中编码单元类似于H.264/AVC中的宏块的概念,用于编码的过程,预测单元是进行预测的基本单元,变换单元是进行变换和量化的基本单元。这三个单元的分离,使得变换、预测和编码各个处理环节更加灵活,也有利于各环节的划分更加符合视频图像的纹理特征,有利于各个单元更优化的完成各自的功能。

  灵活的块结构----RQT(Residual Quad-tree Transform)

  RQT是一种自适应的变换技术,这种思想是对H.264/AVC中ABT(Adaptive Block-size Transform)技术的延伸和扩展。对于帧间编码来说,它允许变换块的大小根据运动补偿块的大小进行自适应的调整;对于帧内编码来说,它允许变换块的大小根据帧内预测残差的特性进行自适应的调整。大块的变换相对于小块的变换,一方面能够提供更好的能量集中效果,并能在量化后保存更多的图像细节,但是另一方面在量化后却会带来更多的振铃效应。因此,根据当前块信号的特性,自适应的选择变换块大小,如图2所示,可以得到能量集中、细节保留程度以及图像的振铃效应三者最优的折中。

\

图2 灵活的块结构示意图

   采样点自适应偏移(Sample Adaptive Offset)

  SAO在编解码环路内,位于Deblock之后,通过对重建图像的分类,对每一类图像像素值加减一个偏移,达到减少失真的目的,从而提高压缩率,减少码流。

   采用SAO后,平均可以减少2%~6%的码流,而编码器和解码器的性能消耗仅仅增加了约2%。

   自适应环路滤波(Adaptive Loop Filter)

   ALF在编解码环路内,位于Deblock和SAO之后,用于恢复重建图像以达到重建图像与原始图像之间的均方差(MSE)最小。ALF的系数是在帧级计算和传输的,可以整帧应用ALF,也可以对于基于块或基于量化树(quadtree)的部分区域进行ALF,如果是基于部分区域的ALF,还必须传递指示区域信息的附加信息。

   

分享到: 收藏

专题