多媒体会议中的H.264编码_视像通讯

多媒体会议中的H.264编码

南京邮电大学马国强毕厚杰 2006/09/22

　　H.264是新一代视频压缩编码标准，由两大国际标准化组织ITU-T和ISO/IEC联合开发。H.264和以前的标准一样，也是采用基于块的混合编码模式，但是它在以往标准的基础上对编码算法进行了改进，使得H.264算法具有很高的编码效率。在同等的图像质量条件下，H.264的数据压缩性能比当前DVD系统中使用的MPEG-2高2~3倍，比MPEG-4高1.5~2倍。正因为如此，经过H.264压缩的视频数据，在网络传输过程中所需要的带宽更少，也更加经济，所以更适合视频会议业务。

　　编码器架构与算法模块

　　随着压缩性能的提高，H.264的计算复杂度变得极高，H.264编码的计算复杂度大约相当于H.263（H.264的同系列标准）的3～5倍，解码复杂度大约相当于H.263的2倍。为此，一款设计优良的H.264编码器必须充分考虑编码速度与率失真性能之间的平衡。一般而言，H.264编码器架构主要包括以下各种算法。

运动搜索（运动估计）

　　这是视频压缩编码领域的核心技术之一。运动搜索技术的基本原理是搜索视频序列中的相邻图像，找出运动信息和运动矢量，用表征物体运动的数据代替相应图像的原始信息，从而极大地消除时间冗余，达到数据压缩的目的。

帧内预测

　　在视频流中，每帧图像的编码方式既可以是I帧（帧内预测帧），也可以是P帧（帧间预测帧）。I帧的编码效率没有P帧高，但I帧是视频码流中的重要组成单位，因为I帧提供重同步的能力。在传输中如果某帧发生丢包，则使用该帧预测的后续P帧将不能正确解码，但由于I帧是自包含的，没有引用任何以往的图像，所以码流在这里获得重新同步，将错误限制在一定范围内。

率失真优化

　　在视频编码中会有许多编码模式和参数的决策问题，率失真优化算法对每个侯选的编码模式或参数进行评估，然后按照一定的法则挑选出最优模式。

码率控制

　　监测信道状况，对码率的分配作出决策。这个算法模块需要和率失真优化结合起来，形成编码器的决策层。

存储器管理

　　存储器的逻辑和物理管理，并负责对参考帧队列管理。在对P帧编码时，需要参考以往已编码或解码的图像，进行运动搜索，所以在编码和解码的同时必须建立参考帧队列，存储参考帧数据。

熵编码

　　对视频序列压缩的各种方法都围绕三个方面：消除时间冗余、消除空间冗余、消除统计冗余。帧间和帧内预测分别针对时间冗余和空间冗余，而消除统计冗余的方法就称作熵编码。

　　H.264编码器的工作流程

　　编码程序在设定编码参数后，首先从输入图像序列中读出一帧图像数据作为当前编码图像，并根据图像特征分析编码类型。每一帧图像数据由若干个片数据组成，每一个片数据独立编码为一个NAL。当写好NAL的起始信息和片头数据后，进入图像宏块层编码。

　　进入宏块数据编码子程序后，首先根据宏块所处的帧类型，进入相应的宏块编码模式选择算法模块。选择宏块的编码模式后，根据编码模式进入相应的宏块编码模块。帧内编码的宏块的预测值是来自在同一图像中的相邻宏块的像素值；帧间编码的宏块的预测值是来自于运动矢量所指向的参考图像中相应区域的像素值。用图像的原始值减去预测值得到残差数据，对残差数据变换、量化、熵编码，进一步消除其冗余信息，得到视频编码后的码流。

　　当宏块的编码模式是帧内亮度16×16或者帧内色度8×8时，整数变换后的直流分量要提出来经过第二次变换。编码后的码流进行反变换，重建宏块数据，为后续宏块预测做准备。当一帧图像重建好之后，继续对该重建图像进行块滤波，消除量化造成图像的块效应，随后将可用于后续图像编码参考的图像数据存入参考图像队列，更新参考图像队列。

计算机世界网(www.ccw.com.cn)