H.264/AVC视频编码变换量化核的硬件设计_视像通讯

H.264/AVC视频编码变换量化核的硬件设计

2012/01/17

　　摘要：基于H.264/AVC视频编码标准，完成了编码模块中的4×4整数变换量化核的分析和硬件实现的优化设计。通过三种优化设计处理后，在硬件开销改变不大的情况下，使4×4整数变换量化核的最高工作频率相比优化前的30.7MHz提高了82%，达到55.8MHz，为H.264/AVC视频编码标准的硬件实现提供了参考。

　　随着数字化视频技术在视频电话、视频会议、DVD以及高清晰度数字电视等方面的应用，视频压缩标准也随之不断发展。ITU-T制定的H.26x系列和ISO/IEC制定的MPEG-x系列，是视频领域中两大独立的主流视频压缩标准。2003年，这些组织又联合推出新的视频压缩标准H.264/MPEG-4 -10AVC，简称H.264/AVC。H.264/AVC采用一系列新的压缩方法[1]，可获得更好的压缩效果，其压缩率达到以往标准的1.5~2倍[2]。因此，基于这一标准的相关研究和硬件实现具有重要的意义。视频压缩硬件实现的关键是编解码模块，其中尤以编码模块最为核心。本文主要研究编码模块中的4×4整数变换量化核，提出硬件实现的优化方法，并采用Verilog HDL语言进行硬件设计和综合。

　　14×4整数变换量化核的原理

　　在以前的视频编码标准如MPEG-2和H.263中，对于预测的残差数据都是采用8×8离散余弦变换(DCT)[1]作为变换的基本运算操作；而在H.264/AVC编码标准中，则采用类似DCT变换形式的基于4×4像素块的整数变换。由于变换块的尺寸缩小，运动物体的划分更精确，而且运动物体边缘处的衔接误差大为减小。

　　对于整数变换方式，4×4像素块的变换公式[3]为：

　　式中，(CXCT)是二维变换核，Ef是缩放因子矩阵，符号表示CXCT矩阵里的每个元素和Ef矩阵中相同位置的元素相乘，a=1/2，b=

为了更有效地压缩数据，需要利用量化的方法对变换后的数据进行有损压缩。同时，由于整数变换需要利用矩阵行向量的归一化因子进行系数缩放处理，为降低变换的运算量，在H.264/AVC标准中将变换的系数缩放并进行量化运算处理，避免了复杂的实数运算和除法运算，更有利于硬件的实现。

　　对于量化方式，正向量化运算可由如下公式[3]实现：

　　式中，Zij为量化后的系数；Wij为变换矩阵W=CXCT中的元素；MF=

·2q，PF称为缩放系数，根据元素在阵列块中的不同位置，其取值如表1所示，Qstep为量化步长，由0至51共52个量化参数QP决定，QP增加1，Qstep增加12.5%；q=15+QP/6，QP/6取整数；对于帧内宏块f取2q/3，帧间宏块f取2q/6。需要指出的是，MF的值可根据PF和QP的取值经简单计算得到，并可形成表格，通过查表方式便可实现硬件运算，并有效地提高了运算速度。

　　24×4整数变换量化核的优化设计

　　为进一步提高硬件运算速度，减少硬件开销，设计中采用了如下优化方法：

　　(1)在求取变换阵W=CXCT时，根据变换的对称性，将X的列变换(矩阵左乘)与行变换(矩阵右乘)分开实现，把二维变换分割为两次一维变换，并采用快速堞形算法[4]来实现。一维变换的快速算法实现如图1所示，其中的列变换可用如下算式表示：

　　对于每列变换，需要进行8次加法和2次移位运算，而行变换则可根据矩阵转置的性质ABT=(BAT)T，将经过列变换后的结果矩阵先进行转置，再采用相同的变换形式运算。这样对4×4点数据做一次变换，只需通过8×8次加法和2×8次移位运算便可完成。

　　(2)针对不同运算的位宽需要，设计专用的加法器和乘法器。本文对整数变换中的加法器采用三级流水线加法器，实现9位加法，每级流水线完成三位超前进位加法，将逻辑延迟限制在三位加法器之内。图2给出了9位加法器的流水线实现框图。选用EPF10K10LC84-3作为适配器件，经过Synplify Pro 7.3综合，结果表明这种加法器具有较优的最高工作频率和硬件开销。如表2所示，常规加法器的最高工作频率为37.0MHz，消耗资源却为28LC，而经过优化的三级流水线加法器在消耗资源增加不多的情况下，其最高工作频率相比常规加法器提高了257%，达到94.5MHz。

　　在量化过程中，对于给定的量化参数QP， MF只有三种取值，因此乘法实现可以采用无符号数乘法运算，乘法结构则采用16×14位加法树乘法器。这样，在提高运算速度的同时节约了芯片面积。

　　(3)对于f的计算，在不影响运算精度的情况下本文采用近似处理。为了避免除法运算，将f的计算式变形，即：

　　f=2q/3=(215/3)×2m≈[(215+1)/3]×2m≈10923×2m

　　式中， m取值为0～8，具体由相应的QP给出。由于f在完成加法运算后其结果还需左移q位，所以计算精度不会受影响。这样，对f的计算只需进行移位操作。

　　34×4整数变换量化核硬件实现

　　基于上述算法原理及其设计，本文首先对4×4整数变换量化模块进行C语言编程，验证了该模块所采用算法的正确性。然后采用Verilog HDL语言描述4×4整数变换和量化核(帧内模式)的硬件功能，并通过仿真软件Modelsim SE 5.7进行功能仿真，验证了该模块输出结果与设计要求相一致。最后采用Synplify Pro7.3综合工具，并以Altera公司的Stratix系列FPGA作为主要目标适配器件进行综合。

　　4×4整数变换量化核的二大子模块的综合结果如表3所示，表中同时给出经本文优化设计前后的综合结果作为对比。可见，经本文采用的三种优化设计处理后，在硬件开销改变不大情况下，变换子模块的最高工作频率达到59.4MHz，是未优化前的1.73倍，而量化子模块的最高工作频率达到55.8MHz，是未优化前的1.82倍。4×4整数变换量化核的最高工作频率取各子模块的最低频率，这样其优化后的最高工作频率是55.8MHz，相比优化前的30.7MHz提高了82%。

　　本文对H.264/AVC协议中的4×4整数变换量化核从算法原理到硬件实现进行了分析和设计。采用自顶向下的Verilog HDL设计流程，实现了4×4整数变换量化核硬件功能的优化设计，模块的最高工作频率提高了82%，为H.264/AVC视频编码标准的硬件实现提供了参考。

《电子技术应用》