基于E-Model的VoIP语音质量测量方法_voip

首页>>>技术>>>VoIP

基于E-Model的VoIP语音质量测量方法

2007/04/20

　　摘要　基于E-Model的语音质量测量方法是一种客观测试方法，它克服了传统语音质量测试在数据网络测量中的不足。为了能够准确评估VoIP语音质量，在E-Model算法的基础之上，探讨了延时、噪声、回音、语音压缩等损伤因素对VoIP语音质量的影响。

1、引言

　　VoIP（Voice over IP），以IP分组交换网络为传输平台，对模拟的语音信号进行压缩、打包等一系列的特殊处理，使之可以采用无连接的UDP（User Datagram Protocol）协议进行传输[1]。近年来，随着IP网络技术的广泛应用，VoIP成为一种新兴的电话通信方式，IP网络所提供的语音质量问题受到人们的普遍关注，如何对语音质量进行科学可靠的测量和评价是网络测量和网络规划设计中十分关键的问题。E-Model作为语音质量测量的一种新方法，它适合数据网络的语音质量测量，必将有广泛的应用。本文将在E模型下分析延时、噪声、回音和语音压缩等对VoIP语音质量的影响。

2、基于E-Model的语音质量评价

　　目前对IP电话业务语音质量评分的评价分为主观评价和客观评价。主观评价方法主要是MOS模型（平均评定得分法），还包括判断满意度测量等方法；客观评价方法主要有PSQM模型（感知话音质量测量法）、PAMS模型（感知分析测量法）、PESQ模型（感知话音评估法）和E-Model[2，3]。传统的测量方式不是基于数据网络的，不能反映延时、抖动和丢包等数据网络特有的问题。

　　在ITU-T P.800中规定的平均主观值MOS，基于该主观评测把人接听和感知语音质量的行为被调研和量化，接听到何种级别质量的语音，就得到多少平均主观值MOS。一般情况下MOS值是4或更高被认为是比较好的语音质量，而若平均主观值MOS低于3.6，则大部分接听者不能满意语音质量。平均主观测试虽然准确有效，但是这种方法存在的最大问题就是实现起来非常麻烦和昂贵，因此人们在不断地探索能进行客观测量的方法。ITU-T的G.107标准提出的E模型考虑了延时、噪声、回音、编码器性能、丢包、抖动等网络损伤因素对语音质量的影响。它的评价标准如图1所示。

图1　用户满意度等级与R值和MOS值的范围对应表

根据ITU-T G.107的定义和实际测试所需的参数可以求出R的值。传输参数R的表达式为：

其中

（1）Ro表示基本的信噪比，Ro的表达式为：

　　其中，SLR表示发送端响度评测值，No表示不同噪声源功率之和。

No的表达式为：

　　其中，Nc表示电路引起的所有哚声功率之和，Nos表示发送端背景噪声引起的电路噪声，Nor表示接收端背景噪声引起的电路噪声，Nfo表示接收端的噪声。影响Ro的主要因素包括：响度评测值（SLR，RLR），背景噪声（Ps，Pr），电话延迟值（Ds，Dr），说话者回音响度额定值（TELR）。

（2）Is表示语音实时传输所产生的同步损伤，Is的表达式为：

　　其中，Iolr表示是由太低的响度评测值所引起的质量的下降，Ist表示是由非适宜的电话噪声引起的损伤，Iq表示量化失真所造成的损伤。影响Is的主要因素有：响度评测值，背景噪声，电话延迟值，说话者回音响度额定值，单向延迟时间（T），量化失真度（qdu）。

（3）Id表示语音信号的延迟损伤，Id的表达式为：

　　其中，Idte表示发送端回音所造成的损伤，Idle表示接收端回音所造成的损伤，Idd表示太长的绝对延迟所引起的损伤。影响Id的主要因素有：延迟，说话者回音响度，背景噪声，响度评测值等。

（4）Ie-eff表示低比特率编码及丢包所造成的损伤，Ie-eff的表达式为：

　　其中Ie表示设备损伤因素，Bbl表示丢包主要因素，Ppl表示丢包率。

　　（5）A表示优势损伤因素，它是当有其它优势传递到用户的一种补偿，通常情况下设置为零[4]。

　　在E-Model测量中包含了影响窄带电话通话质量的多种传输参数，在ITU-T G.107中提供了一组默认值，当终端和应用环境是正常的，可以直接使用这些默认值。根据这些默认值和一些可求的参数比如延时、丢包率等可以得到E-Model输出的传输参数R。R直越大，说明语音质量越好，R值的范围是0-100，0是最差的，100是最好的。

　　平均主观值MOS是1-5之间的数，1是语音质量最差的，5是语音质量最好的。R值可以通过下面的公式转化成MOS分：

　　IP电话网络损伤的主要因素包括延时、噪声、回音、语音编码和丢包[5，6]：

　　（1）延时（delay），指IP包从网络入口点到达网络出口点所需要的传输时间。如果在一个呼叫中包含不同的通路时间，则存在抖动，抖动越大则语音质量下降的越明显。在E模型中采用固定缓冲区的方法，可以使抖动的影响转化为延时[7]。

　　（2）回音（echo），是由语音网络中的电气反射引起的，延时超过16 ms的回声对说话人会有影响。下文通过说话者回音响度额定值（TELR），来检测回音对语音质量的影响。

　　（3）噪声（noise），是影响语音质量的一个关键因素，下文分别通过发送端背景噪声Ps和接收端背景噪声Pr来分析噪声对语音质量的影响。

　　（4）语音压缩（Speech compression），在语音处理中语音编码有很多种方式，每一种都有不同的特点。低速的编码方式占用较少的带宽，但是低速编码使用有损的压缩算法，削弱了语音质量。仿真将采用标准为G.711、G.729 A、G.723.1的编码方式，演示编码对语音质量的影响，其主要参数如表1所示。

表1　标准编码器的主要参数

　　（5）丢包（Packet loss），是影响语音质量的又一个关键因素。数据包发送端和接收端之间的数据包数目的差值即为网络传输丢失包数目。当少量的丢包且是随机地分布时，人耳并不容易感觉到较差的语音质量。当丢包数量变大时，语音质量也就相应的变差。

3、仿真结果

　　（1）图2演示了延时和说话者回音响度额定值（TELR）对R值的影响：时延在0～500 ms变化时，相应的R值随时延的增长而降低，另外，从仿真结果也可以看出，TELR对R值的影响也是很大的，TELT=65 dB时，R值随延时变化的相对缓慢，随着TELR值的减小，R值随延时的增加而迅速降低，且在相同的时延条件下，TELR越大，得到的R值也越大。

图2　延时、回音额定值对R值的影响

（2）从图3仿真结果可以看出语音编码对R值的影响：选择越低速率的编码方式，得到的R值就越小。在实际情况中，选择低速的编码方式能够在相同的连接上建立更多的呼叫，但是引入了更大的延时，使语音质量对丢包也更加敏感。如果需要很高的语音质量，则意味着只能使用64 kbit/s的G.711编码方式。

图3　语音编码对R值的影响

（3）从图4仿真结果可以看出，发送端背景噪声Ps和接收端背景噪声Pr对MOS值的影响：背景噪声小于40 dB时，对语音质量没有太大的影响，当背景噪声大于40 dB，语音质量会迅速下降。

图4　噪声对MOS值的影响

4、结束语

　　 E-Model是一种语音质量测量的新方法，在网络规划和语音监测方面有着广泛的应用。随着IP网络和应用的迅猛发展，特别是随着NGN网络的逐步应用，该网络可以提供包括话音、数据和多媒体等各种业务。语音质量测量是NGN网络测试的一个重要方面，基于E-Model的语音质量测量是对NGN网络语音质量测量的一种有效的方法，必定会有很好的应用前景。

广东通信技术