首页>>>技术>>>NGN

NGN网络测试技术

2008/02/18

  探讨了NGN网络测试中的性能测试技术,重点阐述了呼叫性能测试技术;介绍了语音质量的测试原理、测试规范、测试方法和测试参数;对NGN网络的维护进行了比较简单的讨论,阐述了运营商的两种网络维护模式的相同和不同之处,以及如何应用。

1.网络性能测试

  1.1 网络性能测试介绍

  随着NGN网络技术的日益成熟,全球电信运营商都在某种利益(成本低廉和新业务应用)的驱动下大量部署NGN网络,每年以30%左右的速度递增。由于目前的NGN网络是一个以软交换为核心并由PSTN网络和VoIP网络融合在一起的复杂网络,多种接口、多种协议、多种媒体并存,存在PSTN与VoIP设备的兼容性、VoIP网络内部不同设备提供商的设备兼容性、网络设计性能与实际部署性能的差异性、语音(也许还有视频)质量的差异性等挑战都不同程度地摆在了运营商面前。如果处理不好,很可能造成网络部署失败,运营商不仅要蒙受经济损失,还要承受更大的社会压力。那么,运营商就会不约而同的把目光聚焦到网络测试技术本身,我们认为网络性能测试是很重要的一环。

  NGN网络性能测试要兼顾PSTN与VoIP网络的融合,既要考虑满负荷条件下的语音质量测试,也要考虑软交换的纯信令的压力测试,还要考虑媒体网关对媒体流的处理能力测试。对应于电信运营商来说,比较全面的NGN网络测试,不但要考虑本地的端到端测试,还要考虑异地(跨地域)的性能测试;从测试技术来讲,一般包括同步呼叫测试、异步呼叫测试、长保持呼叫测试、语音质量测试,以及语音间断/语音滑动测试、回声测试、其他性能测试等。

  NGN网络性能测试构架中,一般采用一个或两个测试点,即被仿真的主叫方和被叫方在一台或两台仪表上,两个测试点可以在同一地点,也可以在不同地点进行跨地域测试。被仿真的主叫方和被叫方可以是软交换、媒体网关、模拟用户、VoIP用户、PSTN网络等各种网络节点;可以采用SIP,SIP-T,H.323,MGCP,H.248,Sigtran等VoIP协议,也可以采用随路,SS7,PRI,V5,模拟线等PSTN信令;可以使用G.711/G.723/G.726/G.729等语音编码方式,也支持H.261/H.263/H.264等视频编码方式;主叫方和被叫方可以分别在PSTN和VoIP两个网络中,这对于测试网络的融合性能很有帮助。一般使用一个操作平台,设定测试脚本,手动或自动输出报告。报告一般包括呼叫完成情况(完成率/呼损/CPS/BHCA等)、网络损伤情况(延迟/抖动/丢包/错序等)、语音质量情况(MOS/PSQM/PESQ等)、网络回声情况、呼叫错误及原因等。从图1可以看出,NGN网络性能测试构架包括操作控制台、测试点(测试工具)、被测PSTN和VoIP网络等。

图1 NGN网络性能测试架构

  1.2 几种常见的性能测试方法

  (1)同步呼叫测试(测试NGN系统的峰值压力)

  同步呼叫一般分为纯信令和带媒体流的两种,分别测试系统对信令和媒体流的处理能力;同步呼叫一般采用几十到几千个用户同时发起呼叫,使用二分法,精确验证出NGN系统同时能够处理多少路呼叫并发,是一种峰值压力的测试。测试时间一般不超过1h;呼损不能超过万分之一。

  (2)异步呼叫测试(验证NGN系统的呼叫性能,如BHCA,CPS等)

  异步呼叫一般分为纯信令和带媒体流的两种,分别测试软交换对信令的处理能力和媒体网关对媒体流的处理能力;异步呼叫一般由足够多的用户采用异步方式发起呼叫(例如间隔一秒发呼一个用户),通过更改呼叫保持时间和呼叫间隔时间来调整压力,精确验证出NGN系统的呼叫性能,通常体现在BHCA和CPS数值上,即系统每小时或每秒处理呼叫的能力。测试时间一般超过1h,甚至达到24h或48h;呼损不能超过万分之一。

  (3)长保持呼叫测试(测试NGN系统对于长保持呼叫的处理能力)

  长保持呼叫一般分为纯信令和带媒体流的两种,分别测试软交换对信令的处理能力和媒体网关对媒体流的处理能力;长保持呼叫一般由足够多的用户采用同步或异步方式发起呼叫,呼叫保持时间一般不低于8h,精确验证出NGN系统的对于长呼叫的处理能力,即在规定时间内有无“掉话”,通常体现在呼损数值上,不能超过万分之一。

  (4)语音质量测试(测试在一定压力下,NGN系统内端到端的语音质量)

  语音质量测试一般指端到端的语音质量测试,主被叫两端所连接的呼叫通常会经过媒体网关等对语音进行编解码处理的网络设备,当然还有其它可能产生损伤的网络设备。语音质量测试一般由足够多的用户采用同步或异步方式发起呼叫,测试时间一般不超过1h。主要测试参数包括:MOS,PSQM,PESQ等ITU标准语音质量参数,还有单向时延、双向时延、抖动、丢包、乱序等网络质量参数,当然还有呼叫完成率,即呼损指标,不超过万分之一。

  (5)回声测试(测试在一定压力下,NGN系统处理回声的能力)

  回声是PSTN网络中由于2~4线转换造成的,在PSTN与VoIP网络融合的过程中,被媒体网关进一步放大了。回声测试一般只要求有限压力条件,主要测试系统的一次/两次/三次回声的时延和强度。一般来说,回声最好不要超过150ms,超过150ms,人的耳朵可以分辨出回声,超过400ms,人的感觉就会很差,造成很严重的语音质量问题。

  (6)语音间断/滑动测试(测试在一定压力下,NGN系统对语音的处理能力)

  语音间断指语音在传输过程中出现断裂,一般在20ms以上的断裂需要统计,一次连续语音中的断裂总长度与语音长度之比称为“语音间断比”,信息产业部的测试规范中要求其不能超过2%。语音滑动指语音在传输过程中两端出现滑码变形,一般在20ms以上的断裂需要统计,一次连续语音中的滑动总长度与语音长度之比称为“语音滑动比”,信息产业部的测试规范中要求其不能存在,否则视为语音质量不好。测试中,一般会给出语音间断和语音滑动的次数和每次的时间长度,客户可以根据这些数据计算出语音间断比和语音滑动比。

  (7)其他性能测试

  其他NGN系统性能测试还包括:视频性能及视频质量测试、传真性能及传真质量测试、Modem性能及Modem质量测试等,在这里就不详细探讨了。

2.语音质量测试

  在电信领域,我们的前辈也曾经在PSTN网络部署的时候遇到过诸如回声和传输衰减等影响通话质量的问题,但他们通过回声抑制和增益补偿等技术很好的解决了这些问题,使得PSTN网络的话音质量非常稳定。但是这种情况在最近几年有所改变,随着全球电信运营商大量部署NGN网络,PSTN与VoIP网络不断融合,话音质量问题又被提出来,似乎成了我们难以回避的障碍。下面我们分析一下话音质量及其测试方面的问题。

  2.1 话音质量的测试标准和测试方法

  在测量话音质量时,需要研究三类基本的服务质量:

  话音质量测量的目的是通过主观或客观的测量方法,即通过人为的测量项目或基于计算机的测量工具,对一种或多种以上的话音质量类别给出一个可信的估计。

  (1)主观收听质量测量

  主观测量是一种久经考验的话音质量测量方法,但这种方法成本太高,费时也太长。有一种更广为人知的主观类测量方法,叫做绝对种类定级(Absolute Category Rating,ACR)测量。

  在ACR测量中,收听者按照从1~5的5级损伤指标对一系列音频文件进行分级:5(非常好),4(好),3(可以),2(较差),1(差)。

  在取得了每个收听者给出的得分之后,计算所有音频文件的一般或平均意见得分(Mean Opinion Score, MOS)。为了使ACR测量得到可信的测量结果,接受测量的人数至少应在16个以上,而且测量应该在一个安静的环境下,在可控的条件下完成。

  通常,ACR测量的得分随收听者的增加而趋向稳定。为了降低测量得分的可变性并帮助衡量测量结果,测量中通常会包括一些参考文件,这些文件中包含了“为业界接受的”MOS得分。

  (2)会话质量测量

  在会话测量中,通常会将一群收听者放在交互式通信的环境下,并要求他们通过一个电话或VoIP系统完成一项任务。测量人员在系统中加入延迟和回声等效应,然后调查测量主体对连接质量看法如何。

  延迟效应对会话质量的影响随任务不同而有很大差异。对于非交互式的任务而言,几百毫秒的单向延迟都是可以忍受的;而对交互性较强的任务,哪怕是很短的延迟都可能造成会话困难。

  延迟对不同任务影响不同的这种情况就造成在会话呼叫质量的解释上出现问题。例如,两个相同的VoIP系统连接都会产生300ms的单向延迟,但一个系统用于高交互性的商业谈判,而另一个系统则用于朋友间的非正式聊天。那么前一个系统中的用户可能会觉得呼叫质量很差,而后一个系统中的用户则可能根本注意不到这一延迟。

  很显然,这种会话质量测量也属于主观评价的范畴。下面看看客观评价。

  (3)基于样本的客观测量

  ITU开发了P.861(PSQM)和更新的P.862(PESQ),力图用成本更低的客观测量法来做为主观收听质量测量的补充。采用这些测量技术,可以通过比较送入系统中的一个原始参考文件与输出的受损文件之间的差异,得到由传输系统或CODEC引入的失真。这些技术的初衷虽然是为了CODEC的实验室测量,但在VoIP网络测量中也得到了广泛使用。

  P.861(PSQM)和P.862(PESQ)算法将参考信号和受损信号都分成较短的交迭样本块,计算每一块的傅立叶变换系数,并比较他们的系数。P.862算法最后给出一个PESQ得分,该得分与MOS的范围相近,但它并不是MOS的准确映射。新的PESQ-LQ得分更接近收听质量MOS。这些算法都同时要求访问源文件和输出文件才能测量后者相对于前者的失真。

  (4)话音质量的测试方法

  大部分语音测试设备(例如Spirent的Abacus)都是采用基于ITU P.861与P.862规范标准,对网络或者设备进行客观评价。这里我们用Spirent的Abacus5000来举例说明话音质量的评价方法。Abacus5000是基于呼叫的测试系统,它可以在模拟用户产生呼叫的同时生成真实的媒体流。针对音频,可提供3-tone,Resilient测试;针对话音,能够发送标准的男声、女声、混音等.wave格式文件。标准的测试文件从发送端经过被测网络传输后到接收端,测试系统通过话音质量评估手段,比较原始语音文件和接收到的语音文件间的异同来对被测系统进行评估,得到PSQM(P.861)或者PESQ(P.862)。系统还可以提供客观测试方法到主观测试结果的相关性对应,即PSQM/PESQ到MOS的转换。图2所示的为Abacus5000的语音质量测试方法。

图2 Abacus5000的语音质量测试方法

  2.2 语音质量参数

  语音质量主要有三种ITU标准:

  (1)MOS(ITU-P.800),1~5分,5分最好,属于主观评价指标;

  (2)PSQM(ITU-P.861),0~6.5分,0分最好,属于客观评价指标;另外,PSQM+属于PSQM评分标准的扩展,评分标准与PSQM相同;

  (3)PESQ(ITU-P.862),-0.5~4.5分,4.5分最好,属于客观评价指标,又称之为“话音清晰度”指标;另外,PESQ_LQ是PESQ评分标准的扩展,范围为1~4.5分,更接近于MOS的1~5分标准;

  当然,影响话音质量的参数指标还有以下几种:

  (4)回声(ECHO),指传输系统由于阻抗不匹配等原因,对声源发出的声音产生的“反射”现象,即说话者很快听到的自己发出的声音。一般,人的耳朵能够识别的回声以150ms为界,超过150ms的回声,人耳能够比较明显的分辨,会产生反感,在150ms以内的回声,一般人都可以接受,基本听不出来。

  (5)语音间断(HIT),指由于丢包等传输原因或编解码等原因造成的语音不连续,人耳听到的是断断续续的话音,会产生极大反感。信息产业部的测试规范中规定,20ms以上的语音间断都必须统计,语音间断累计和与总通话时长的比值,称为“语音间断比”,通常这个值不应该超过2%。

  (6)语音滑动(CLIP),指由于静音压缩等编解码原因造成的语音边缘模糊,通常是由静音到有声部分或者由有声到静音部分出现声音丢失,人耳听到的是失真的话音,会产生极大反感。信息产业部的测试规范中规定,20ms以上的语音滑动都必须统计,语音滑动累计和与总通话时长的比值,称为“语音滑动比”,通常这个值为零,否则不能入网。

  以上六个部分,是用户可以感受到的话音质量指标参数,因此属于QOE的范畴。我们再介绍一下QoS的话音质量指标,这些参数包括时延、抖动、丢包、乱序等,通常与传输质量有关,不属于用户能够体验的部分,因此属于QoS的范畴。

  (7)时延(DELAY),指语音在传输系统中需要的传输时间。时延一般分为单向时延(One-Way-Delay)和双向时延(Round-Trip-Delay);单向时延指语音(文件)从发端到收端的传送时间,它直接反映了网络传输质量,对话音质量产生间接影响;双向时延指语音(文件)从发端到收端再回到发端所经历的时间,一般比两倍的单向时延要长,因为收端要对语音进行处理。单向时延的测试精度取决于两点,其一为测试仪表的精度,其二为收发两端采用的共同时钟的精度,思博伦的Abacus5000能够达到2ms的测试精度;网络测试中若采用NTP-Server时钟同步,则其时钟精度为1~10ms,若采用GPS/CDMA为时钟同步源,则其时钟精度小于1ms。一般认为,单向时延应该不超过150ms。

  (8)抖动(JITTER),指语音包时延的差值。如果每个语音包的时延忽大忽小,人耳听到的声音忽快忽慢,用户的感觉会很差。因此,抖动虽然反映的是传输质量问题,但它也一定程度上影响了话音质量。

  (9)丢包(LOSS),指VoIP条件下,RTP语音包在传输过程中的丢失,反映在QOE的参数中,与语音间断(HIT)有一定的关联。一般丢包,都是按照语音包丢失的数量或百分比率计量,如丢包1%,发现100个丢包等。统计的方法,主要根据RTCP包中的RTP语音包数量差值计算出来。

  (10)乱序(OUT-OF-ORDER),指VoIP条件下,RTP语音包在传输过程中的次序颠倒,对话音质量产生间接影响。统计的方法,主要根据RTCP包中的RTP语音包的序号计算出来。

3.网络维护测试

  3.1 背景

  电信运营商在部署VoIP网络后,在不同程度上遇到了网络不稳定,用户语音质量不好,投诉大量上升等棘手问题。在传统的运行维护模式下,维护人员往往疲于奔命,到处扑火,但是收效甚微,投诉越来越多。因为传统的运维模式是被动的,运营商收到投诉报告,安排维护人员到现场通过被动监测的方法进行测试,找出问题,协调解决,时间和人员消耗很大,投诉较少的情况下还好,一旦投诉大量出现就只能望洋兴叹!运营商以前面对的是相对稳定的PSTN网络,投诉很少;VoIP具有服务多、成本低等优点,但是同时存在语音质量和网络问题,这是运营商不可避免的,那么怎样才能破解如此尴尬的局面呢?也许,我们需要更好的维护模式。

  目前,存在两种电信网络维护模式。第一种,是采用网络监控的方法,主要在各个主要信令点对信令网络(如No.7网络)进行7×24h监控,发现信令异常及时上报,维护人员可以及时排查规避故障链路,保障通信畅通;第二种,是采用主动分布式测试的方法,在各个主要监测点,模拟用户进行真实呼叫,得到人体感知的语音质量等反映网络运行质量的参数,维护人员可以设定系统模拟用户呼叫的频率和时间,定时拿到测试报告,及时发现网络运行中的故障,尤其是人体感知的语音质量故障,在用户投诉之前就有可能解决问题,它也可以实现7×24h的网络故障报警。

  那么,我们分析一下这两种维护模式的异同。

  3.2 主动式维护和被动式维护

  (1)主动式维护模式与被动式维护模式的相同点

  两种维护模式都采取集中控制或集中采集的方式,控制台都可以在第一时间掌握各个节点的故障信息,为故障排查争取时间;

  两种维护模式都是7×24h系统,适用于电信运营商的网络维护。

  (2)主动式维护模式与被动式维护模式的不同点

  被动式维护模式主要采用监控手段,被动采集信息,可以针对信令网络(主要是No.7网络)进行维护,对排查信令故障比较有效;主动式维护模式主要采用测试手段,主动模仿用户发起呼叫,得到真实的人体感官体验信息(例如话音质量参数),对排查用户投诉比较有效。

  被动式维护模式是运营商在PSTN系统维护中应用比较成功的系统,PSTN系统采用64kbit/s固定话路,语音质量非常稳定,网络故障主要集中在信令网络,因此被动式维护模式在传统的PSTN网络比较适用;主动式维护模式,随VoIP网络的发展而逐步发展,并在VoIP系统维护中得到广泛应用,VoIP系统由于采用IP方式,话路带宽没有保证,语音质量不稳定,网络故障主要集中于语音质量问题,因此主动仿真用户发起呼叫测试的方法,既可以发现信令协议层面的问题,更主要的是它能够及时发现用户语音质量的问题,在用户投诉之前就可以发现问题。

  被动式维护模式是事后维护模式,它并不能在VoIP系统中及时发现网络故障,尤其是用户的语音质量故障,而是用户投诉后,在它保存的数据库中查找该用户的呼叫追踪信息,费时费力;主动式维护模式是事前或事中维护模式,它能够根据网络语音质量参数的变化,及时发现两个或多个测试点之间的故障,发出预警,并找到故障点,进行进一步排查,即使在用户投诉后,也可以及时还原用户故障并加以排除。

  (3)假想的例子

  假设某个运营商在某个城市部署了A/B/C三个VoIP局点,或者制改造了核心网部分,并同时部署了主动和被动式维护系统。

  某天,A局到B局之间由于网络数据过载而造成通信故障,用户感觉语音质量下降严重;C局的某个用户由于自己的VoIP终端问题也感觉到语音质量不好;这样A/B/C三个局都有用户来投诉,我们来看看两种维护系统的表现。

  被动式维护系统监测到了A局到B局之间有大量丢包,网络延迟很大,给出网络告警,但并不知道用户那里的话音质量到底是什么样,只能等待用户投诉后的描述;A/B局用户投诉后,维护人员输入用户号码和故障时间到监测系统中进行过滤,找到呼叫追踪信息,并找到相应的承载话音的RTP流(数据量极大),通过事后分析,确认语音质量(MOS)不好,但究竟哪里出了问题还是一头雾水。这时C局的那个用户来了,说他的话音质量也不好,维护人员经过过滤排查,并没有发现他的呼叫质量有问题,只好再观察,C局用户很不满意地离开了,A/B局的用户也只是得到了网络问题的答复而已。

  主动式维护系统通过A/B/C三个测试点两两的测试(假设5min发起一次呼叫测试),知道A,B局间网络丢包严重,网络时延较大,用户通话出现断断续续,语音质量严重下降,肯定会有用户投诉,维护人员通过测试报告得到初步结论:网络故障。对于C局用户的投诉,由于主动维护系统并没有得到C局与A,B两点之间的故障报告,所以怀疑C用户的终端有问题。根据对C局用户终端的语音质量测试(系统具备此功能),发现C用户终端有编解码问题,换了终端,问题得到解决,C用户很满意。A/B局的用户并不满意,他们抱怨说,平时打电话质量很好,今天就不行了。于是,维护人员又采用主动式系统,在晚间闲时对A,B间进行了一次100路的性能测试,呼叫一段时间后,出现网络过载,用户的话音质量下降,问题再现了!维护人员对网络优化后,问题彻底解决了。

  我们刚刚举了一个比较极端的例子,事实上,两种维护模式应该是相辅相成的,运用得体,会起到很好的效果。

  (4)实例

  某个运营商在某个城市部署了几个VoIP局点,开始试运营,并在重点局点同时部署了主动和被动式维护系统。

  从一开始,就有用户投诉,他们打电话总有“单通”现象,即一方听得见对方,但另一方却什么也听不见,话音好像只能单向传输;由于开始用户投诉少,运营商并没有在意,但是随着放号量的扩大,用户投诉大量涌现,运营商开始紧张起来,并开启了主动和被动维护系统(以前并没有真正使用)。

  很快,主动式系统报出了某两个局点之间的用户通话存在“单通”现象,运营商半信半疑,找出了被动式系统存储的RTP话音数据,发现确是只有单向话音流,而并非双向。

  VoIP系统的提供商开始推卸责任,这肯定是网络有问题。于是,运营商找来网络测试仪表进行IP网络检测,发现网络很正常。一切的怀疑点都在VoIP系统设备提供商身上,他们只好低头查找自己的问题,终于在几天后,发现系统中存在一个BUG,很快“单通”问题得到了解决。从此,运营商觉得维护系统对它还是有价值的。

  3.3 结论

  (1)对于运营商的传统PSTN网络维护,被动式监测系统占优势。

  (2)对于VoIP网络或PSTN+VoIP混合网络维护,我们要看具体情况。在网络部署初期,主动式测试系统占优势,它不但能够及时报告网络损伤和用户感知的语音质量,还能在用户投诉后及时再现问题,并可以对用户终端进行排查,找到问题所在;在网络逐步走向成熟后,话音质量问题逐步减少,被动式监测系统会发挥更大的作用,因为这时候网络协议交互方面的维护显得更加突出。

  (3)运营商采用主动式系统和被动式系统维护NGN网络,如果运用合理,能够起到相辅相成的作用。

通信世界网(www.cww.net.cn)



相关链接:
IPTV业务的下一代网络体系构架研究 2008-02-14
IPTV业务在NGN体系架构中的定位分析 2008-02-01
PSTN向NGN演进是必然 需加快演进步伐实现增值 2008-01-23
关于NGN若干问题的思考-从VoIP到NGN 2008-01-22
可管理网络:支撑多层次服务等级 2008-01-14

分类信息:  电信_与_NGN及软交换技术     行业_电信_文摘   技术_NGN及软交换_文摘