IP电话的关键技术_

IP电话的关键技术
The Key Technology in IP Phone Network

米卫东 2003/11/21

　　 摘要：本文描述了IP电话的基本原理和几个关键技术，包括：语音编码、压缩、打包、分组交换，以及为保证话音质量而采取的回声抵消等技术。

　　关键词：IP电话、语音编码、语音压缩、分组交换

　　作者简介：米卫东，硕士研究生毕业于北京邮电科学研究院，现任珠海市佳和电子有限公司总经理。

1. 概述

　　九五年全球第一个可以通过Internet打长途电话的软件产品"Internet Phone"问世，在多媒体电脑上安装该软件，就可以通过Internet和世界上任何地方安装同样软件的电脑进行通话。这个技术上的突破引起全世界的瞩目，涉及到的关键技术涉及语音编码及压缩、分组交换等。

2. 语音编码及压缩

　　模拟语音信号必须经过处理，转换成适合在IP网络上传输的IP数据包。这个过程包括：抽样、量化、编码、压缩、打包等。

1) 抽样
　　抽样是每隔固定的时间，采集模拟信号的过程，将一个时间和幅度都连续的模拟信号调制为时间离散、幅度连续的信号。根据信息论仙农定律，采样频率大于信号最高频率分量的2倍，信息量就没有丢失。因此，语音信号的采样频率通常为8kHz。

2) 量化
　　量化是指把抽样信号的幅度离散化的过程。考虑到信号的传输质量和效率，离散的级别为256级。

3) 编码
　　经过抽样和量化的过程，模拟语音信号成为时间间隔为125微秒、幅度为256级的信号，也就是可以用8bit表示1个采样值。为弥补语音信号的非线性特性，需要对256级的信号进行二进制编码。根据不同的标准，分别有A律和u律编码规则。模拟语音信号经过抽样、量化和编码后，成为64kbits/秒的数字信号，也称为脉冲编码调制信号（PCM：pulse code modulation）。

4) 压缩
　　传统电路交换信号的基本速率是64kbits/秒，通话过程中，无论通话方是否讲话，交换电路始终保持连接。因此，通话中的停顿、听对方讲话时，电路资源实际上被浪费。压缩的目的是将有效的话音数据进行传输，而无效的数据根本就不进入网络传输。

　　编码压缩方法由ITU统一制定，并标准化。在实际选择语音压缩的算法时，要综合考虑各种因素。例如，高比特率可以保证良好的话音品质，但要占用大量存储空间，耗费更多的系统资源；而过低的比特率又会影响话音的品质和增加延迟。所以在较低比特率的前提下保持较好的话音质量，是选择压缩算法的原则。目前一般的压缩算法可以将语音压缩到5～10kbits/秒，而保持较好的语音品质。

　　目前H.323 选择G.723.1作为缺省的话音编码标准。

3. 分组交换

　　传统的电话网是以电路交换的方式传输语音，在基于IP 的分组网络上传输语音，就必须对语音信号进行特殊的处理，将语音信号转换为一定长度的数字化语音包，采用存储转发的方法，以包的形式进行交换和传输，使处理后的信号可以适合在面向无连接的分组网络上传输，这项技术称为分组语音技术。

　　在发送端电脑声卡将模拟语音信号转换为数字信号后，将10～30毫秒的语音编码为一帧。例如：每个帧含120个语音样点（15毫秒）。编码后，将8个压缩的帧合成一个压缩的语音包送入网络处理器。网络处理器为语音包添加包头、时标和其他信息后通过网络传送到另一端点。

　　在接收端网络提供一个可变长度的缓冲器，用来调节网络产生的抖动。缓冲器可容纳许多语音包，用户可选择缓冲器的大小，大的缓冲器能调节大的抖动，但产生延迟较大，小的缓冲器产生延迟较小，但不能调节大的抖动。解码器将经过编码的语音包解压缩，若帧长度为15毫秒，则120毫秒的语音包被分成8帧，然后被解码还原成120毫秒的语音数据流送入解码缓冲器。缓冲器中语音样点被播放驱动器取出送入声卡，通过扬声器按预定的频率（例如 8kHz）播出。

　　传输过程中，语音包像数据包一样进行处理，从而实现语音信号在数据网络上的传输。

4. 其他关键技术

1) 信令
　　用于鉴别呼叫方所需要呼叫的对象以及呼叫方在网络中的位置。在分组语音网络中有两种完全不同的信令联系。一种信令为外部信令（PSTN信令），用于语音代理和该代理服务的语音设备。这些语音设备适用于普通的语音网络，外部信令遵循电话标准。另一种信令用于传输网络中语音代理之间，称为内部信令。这种内部信令通过传输网络标准或语音代理本身的标准实现。

2) 网络呼叫
　　IP电话采用分布式的呼叫模式。因为不需要通过电路交换完成呼叫，所以每个终端都使用了呼叫处理器。单工呼叫模式仅支持一个终端的呼叫，且需要本地呼叫驱动的支持。通过触发本地呼叫驱动软件建立一次呼叫，而呼叫驱动利用传输控制协议（TCP）的Socket与另一端的呼叫驱动建立信令连接，从而触发另一端的单工呼叫。这两个单工呼叫被触发后按照Q.931信令协议完成呼叫过程的建立。根据信令的引导，呼叫驱动程序启动语音信息流接入网络和对端的接收设备，建立一个完整的呼叫过程。

3) 回声消除
　　在IP电话的应用中，人们若使用扬声器和麦克风就可能出现回声现象。本地扬声器输出的模拟语音信号可能又被话筒接收，当信号被传回到源端时，就会产生不必要的回声。在数据网中呼叫必须经过多个路由器和网关，其相当长的延迟又会造成回声问题的进一步恶化，在系统中使用回声消除技术可以解决这个问题。回声消除技术主要有回声抑制和回声抵消两种。

4) VoATM 、VoFR 、VoIP
　　分组语音传输网络可以基于IP、帧中继或异步传输模式（ATM），这些构成了传统的分组语音传输方案，我们分别称为ATM语音（VoATM）、帧中继语音（VoFR）、IP语音（VoIP）。

　　VoATM（Voice over ATM）是指在ATM网络上传递分组语音的技术。ATM是利用固定长度（53 个字节）信元中的48个字节来存放数据信息的，因此，通过ATM传输语音流，要遵循ATM信元的结构规定。
　　VoFR（Voice over Frame Relay）是利用帧中继网络传输分组语音的技术。帧中继论坛 FRF.11已经建立了用于帧中继上的语音传输以及有关通话建立、编码类型和分组格式的标准，未来还将提供用于产品互操作性等方面的基本功能。

　　VoIP（Voice over IP）是利用IP网络进行语音通信的技术。IP是无连接的，在优先级、资源预留、分组拆分等领域的优势比较引人注目。IP拥有强大的信令、寻址和路由功能。IP的另一优势在于它与当前众多的数据应用程序的集成，使得IP网络应用无所不在。

珠海佳和公司供稿 CTI论坛编辑