IP视频系统的视频质量客观测试_视像通讯_企业

IP视频系统的视频质量客观测试

袁飞 2010/08/17

　　视频质量客观测试是利用机器或程序来评价视频质量的方法，由运行特定算法的程序或机器完成视频处理效果的优劣评价，排除了主观评价时的外在条件及人员差异性的影响。

1.引言

　　决定一个视频系统的好坏主要在于其视频处理效果，而如何评价视频处理效果则是以一个比较棘手的问题。目前常用的方法就是通过人眼来直接观看，但是由于人眼的主观性及观看人员的单体差异性，对于同样的视频处理结果，不同的人的感受是不一样的；此外，灯光、观看距离、显示设备等外在条件也会限制观看人员的评价结果。为体现公平性，在评价一个视频系统之前，通常需要召集多个经过培训的观看人员，并搭建一个灯光、观看距离、显示设备都固定的观看室，整个过程繁琐且耗费时间较长、成本较大。为解决主观评价存在的缺陷，多个研究机构提出了视频质量客观测试方法，即利用机器或程序来评价视频质量的方法，由运行特定算法的程序或机器完成视频处理效果的优劣评价，这样就排除了主观评价时的外在条件及人员差异性的影响。

2.视频质量客观测试原理、测试模型及标准

　　2.1 测试原理

　　目前常用的主要基于以下两种：

　　通过计算参考和测试图像之间的峰值信噪比来确定视频处理系统的优劣（原理如图1所示）。其计算公式为：
PSNR (dB) = 20*log10(信号峰值/差值) 其中，信号峰值=255（有时等于239），差值= [参考像素值]-[损伤像素值]

基于噪声的客观测试模型原理

图1 基于噪声的客观测试模型原理
　　PSNR计算起来简单、快捷，实现起来较容易，而且对于检测视频处理硬件及软件具有很好的帮助作用，但其测试结果与人眼的主观感受相差较大，目前只是作为视频处理系统设计开发过程中的一个参考值，不能作为视频处理系统的评价标准。

　　在人眼视觉模型研究的基础上，建立一定的统计数学模型，通过该数学模型来提取参考视频和测试视频中人眼较敏感的亮度、边缘、连贯性等特征信息，再对这些提取的特征进行差分比较之后给出评价值。基本原理及处理过程如图2所示：

基于人眼视觉模型的客观测试模型原理

图2 基于人眼视觉模型的客观测试模型原理
　　其测试过程基本模拟了人眼的主观评价过程，因此其结果与主观评价的结果一致性较高，可客观反映视频处理系统的优劣。

　　2.2 测试模型

客观测试通用模型

图3 客观测试通用模型
　　在图3所示的测试模型中，客观测试系统会对同时对输入的参考视频及测试视频内容进行比较，比较算法可以采用基于噪声的信噪比算法，也可以根据人眼视觉系统提取出人眼可感知特征后，再对这些特征值进行差异比较，然后综合所有的比较结果给出视频质量评价值。

　　通常为保证评价的公正性。客观测试系统在对参考/测试视频进行比较之前，需要纠正被测视频系统中非编解码引入的一些画面偏移，如时空偏移、增益等变化，每种客观测试标准都会有自己的纠正算法，通过这些纠正算法可以排除时间的前后偏移、空间的上下左右偏移、以及增益的变化对最终的计算结果的影响，以给出较可靠的客观的视频质量评价。

　　2.3 测试标准

　　目前最常见的客观测试标准是PSNR（峰值信噪比）测试算法，但是其测试结果与主观评价结果的一致性较差，不能完全反应人眼的主观感觉。因此有多个机构提出了与主观评价结果一致性较好的客观评价算法，如美国国家电信和信息管理局（NTIA）提出的视频质量度量（VQM）算法及其模型、英国电信BT提出的全参考视频质量模型及其算法（BTFR）、巴西电信发展研究中心（CPqD）提出的基于分段的图像评价（IES）算法，以及泰克公司和Sarnoff公司提供的PQR算法等，这些客观算法都是在模拟人眼视觉模型的基础上建立的。

　　为验证这些客观测试标准与主观评价结果的一致性，视频质量专家组（VQEG）在2003年进行的第二次视频质量专题测试中，对上述客观算法与主观算法的关联性进行了验证测试，测试结果如表1和表2所示，可以发现，NTIA提供的VQM客观视频质量评价方法对于PAL制及N视频格式都有较好的表现，与主观测试结果的一致性较好。

PAL制式下客观评价与主观评价结果关联性

表1 PAL制式下客观评价与主观评价结果关联性
NTSC制式下客观评价与主观评价结果关联性

表2 NTSC制式下客观评价与主观评价结果关联性
　　VQM 客观测试标准是利用统计学原理模拟实际的人眼视觉系统，在提取参考及其对应的测试图像中人眼能够感知的图像特征值（亮度、色彩、时空变化等信息）的基础上，计算得出视频质量客观评价值，该评价值为人眼可感知的模糊、块失真、不均匀/不自然的运动、噪音和错误块等损伤的综合反映，其值位于0~1之间，值越小越好。

　　VQM的具体处理过程如图4所示：

VQM客观测试处理过程示意

图4 VQM客观测试处理过程示意

参考及测试视频流的采集保存及模拟/数字信号转换；

测试视频流的校准，依据参考视频，去除测试视频中的时间偏移、空间偏移、增益等非编解码引入的变化；

提取参考及测试视频图像中人眼可感知的特征：模糊、块失真、不均匀/不自然的运动、噪音和错误块等信息；

对于步骤3提取的每一种特征值进行一定的差分比较计算，依据视频测试序列的长短进行统计平均；

使用VQM合并计算公式合并步骤4计算的每种特征值的统计平均值，给出最终的视频质量客观评价值（VQM），最终计算获得的VQM值位于0到1之间，数值越小代表视频质量越好。

3.视频质量客观测试举例

　　3.1 环境搭建

　　根据VQM算法的原理及客观测试模型搭建测试环境，如图5所示：

VQM视频质量客观测试环境

图5 VQM视频质量客观测试环境
　　参考视频输入PC负责播放标准的各种场景的视频测试序列，并通过视频显卡先后输出至编码器及视频采集PC；

　　视频采集PC将参考视频输入PC输入的视频内容以无压缩的格式保存，为后续的视频质量评价提供参考视频文件；

　　编码器将输入的各场景的视频内容编码之后，发送给解码器，解码器解码后输出给视频采集PC，视频采集PC采集后同样以无压缩的格式保存，为为后续的视频质量评价提供测试视频文件。

　　安装在采集PC上的 VQM 视频质量评价程序对参考视频及测试视频进行相应的计算，给出视频处理系统的视频质量评价。

　　3.2 测试过程

　　选择H3C视频会议系统进行验证测试，并将其测试结果与主观测试结果进行大致验证。具体过程如下：

　　1. 选择多个特定的视频测试场景序列。这是因为大多数的视频编解码系统的处理效果与视频场景切切相关，通常情况下，视频编解码系统对于静止场景的处理效果要好于剧烈运动的场景。根据H3C视频会议系统的应用场景及现有的视频素材，选择如表3所示的视频测试序列。

测试场景选择及说明

表3 测试场景选择及说明
　　2. 为适应VQM 计算工具的某些要求，，需要对这些视频序列进行简单的处理，包括将每个视频场景长度裁剪为14S，格式转化为播放器可连续播放的格式。之后使用装有高清显卡的PC播放这些视频测试序列，再通过高清显卡输出至被测系统或视频采集PC。

　　3. 将参考视频输入PC播放的视频测试序列直接输出至视频采集PC，视频采集PC将这些测试场景采集并保存作为后续的参考视频。

　　4. 将参考视频输入PC的播放的视频测试序列输出至被测视频处理系统，相应的视频测试序列经被测系统处理后输给视频采集PC，视频采集PC进行采集并保存为测试视频；

　　5.在视频采集PC上将之前采集的参考视频及测试视频进行一定的无损转换，转换为VQM软件需要的格式，之后提供给VQM测试工具进行一些列的数学计算，最终给出客观视频质量评价值VQM。

　　3.3 测试过程的自动化实现

　　我们在测试过程中发现，视频采集、视频转化及数据收集等过程投入的人力较多，并且在视频采集机转化过程中，虽然只进行了一些辅助性工作，但是也会给测试结果带来较大的误差，因此需要对上述测试过程进行自动化实现，排除人为的影响，具体实现过程如下：

　　1. 选择并处理好视频测试序列之后，将相关视频测试场景文件保存在参考视频输入PC上，然后在该PC上架设WEB服务器，将该PC作为视频点播网站，在其主页中嵌入视频播放控件，远端用户可通过登录该WEB网站在参考视频输入PC本地播放视频测试场景。

　　2.在视频采集PC上使用AutoIT实现了视频文件采集、转换，VQM计算及结果收集的自动化运行；并最终使用AutoIT整合了步骤1及步骤2的所有自动化脚本，实现了在测试环境搭建后可完全的自动化运行，无需人工干预，排除了人为的影响。
　　3.4 测试结果

　　视频质量客观测试实践验证过程中，为保证测试的稳定性，我们对每个场景进行了多次测试之后求平均值，具体数据如表4所示：

多个场景测试结果（VQM平均值）

表4 多个场景测试结果（VQM平均值）
　　从测试结果可看出，视频处理系统对于静止及画面复杂度较低的场景的处理效果要好于运动较大及细节丰富的场景。但是此测试结果无法同人眼的主观感受关联起来，因此接下来需要进行VQM测试结果与主观测试标准 DMOS 测试结果的一致性分析。

4.VQM与DMOS主观测试方案结果一致性分析

　　4.1 DMOS主观测试方案分级原理

　　DMOS 主观测试方案直接由视频质量观察人员同时对参考图像及测试图像进行打分，再对参考图像和测试图像的结果进行归一化（转换为0-100）；然后计算参考图像及测试图形之间的差值并求平均值，通过该平均值的分布来反映被测系统视频主力能力的好坏，其分布范围为0-100，值越小越好。分布范围与主观感觉的映射如表5所示：

DMOS与主观感受映射表

表5 DMOS与主观感受映射表
　　4.2 两个分级方案一致性分析

　　VQM 客观测试和 DMOS 主观测试均是通过计算参考图像与测试图像之间的差值平均值来对被测系统进行评价；其中VQM 客观测试方案是在模拟人眼视觉系统的基础上提取出人眼可感知的特征值进行计算得出结果，DMOS 主观测试结果则直接通过人眼的可感知性得出结果；因此从测试原理上，VQM 与 DMOS应该是线性相关的。 VQEG 视频质量专家组在其进行的第二次视频质量专题测试中将VQM的值乘以100后再通过下面的非线性公式转换为DMOS值：DMOSp = b1 / ( 1 + exp( - b2*(VQM-b3) )

　　再与其他独立实验测试的实际DMOS值进行比较计算得出表格1与表格2的一致性结果。 VQEG 视频质量专家组经过分析，若不经过非线性转换而是只将VQM*100线性转换为DMOS值，则其对应的皮尔森相关系数只会下降 0.003 及 0.015。

　　通过上述分析，可以初步得出，VQM的测试结果值可以通过乘以100线性转为 DMOS值，通过 DMOS 值的分布可以间接映射为用户的主观感觉。将上文表4的VQM测试结果直接映射为DMOS主观评价结果，如表5所示。

VQM测试结果映身为DMOS主观评价结果

表6 VQM测试结果映身为DMOS主观评价结果
　　上述映射结果值，已通过测试人员观看实际的参考与测试视频进行验证。综上所述，VQM可以作为日常视频质量测试中的一个评价标准。

5.结论

　　视频质量客观测试标准是在模拟人眼视觉系统的基础上提出的，与主观测试结果一致性较好。但是由于目前对于人眼视觉系统的的研究还不是很透彻，人眼视觉系统的数学模拟并不能够真实反映人眼的主观感受，因此依据频质量客观测试标准得出的测试结果只能作为视频质量评价的一个重要参考，更适合用于视频处理系统厂商之间的对比测试。直接用户是视频处理系统的最终效果评价者。

共 4 页：1 2 3 4

CTI论坛编辑