基于SIP协议的VoIP系统的QoS机制的研究

时间:2022-04-09 10:29:20

基于SIP协议的VoIP系统的QoS机制的研究

摘 要:IP电话是一种数字电话,是技术创新的一种通信服务业务,它把语音、压缩编码、打包分组、分配路由、存储交换、解包解压等各种交换处理组合在IP网或互联网上实现语音通信。因特网语音通信是VoIP技术的一个最典型的,也是最有前景的应用领域。介绍了VoIP的通信原理、关键技术和系统通信中的SIP协议,分析了影响VoIP的QoS的主要原因,阐述了时延、抖动、丢包和回声等影响QoS的机理和解决方案。

关键词:VoIP; SIP; QoS; 延时; 抖动; 丢包

中图分类号:TN919.2 文献标识码:A

文章编号:1004-373X(2010)09-0058-05

Research of QoS Mechanism for VoIP System Based on SIP Protocol

XU Shan-feng

(China Academy of Electronics and Information Technology, Beijing 100041,China)

Abstract:IP telephone is a kind of digital telephone, and is an innovative type of communication service. It combines a variety of switching processes into the IP network or Internet for realizing speech sound communication, such as speech sound, compressed encoding, packaging and packeting, distribution routing, storage and switching, depackaging and decompression. The Internet speech sound communication is a most typical and promising application field of the VoIP technology. The communication theory and the key technology of VoIP are introduced, an important SIP protocol in the system communication is introduced. The reasons influencing QoS of VoIP are presented. Some technological problems such as delay, jitter, lost packet and echo are analyzed, and the existing solutions of these problems are given.

Keywords: VoIP; SIP; QoS; delay; jitter; lost packet

0 引 言

VoIP是一种数字电话,是技术创新的一种通信服务业务。VoIP相对于传统的电话业务最大的优势是能广泛地采用Internet和全球IP互连的环境,提供比传统业务更多、更好的服务,并同时极大地降低服务成本。但是传统的IP网络主要是用来传输数据业务,采用的是尽力而为的、无连接的技术,因此没有服务质量保证,存在分组丢失、失序到达和时延抖动等情况。数据业务对此要求不高,但话音属于实时业务,对时序、时延等有严格的要求。因而,如何能在实时语音的传输中保障良好的QoS是VoIP技术发展的关键[1]。

1 VoIP基本原理

IP语音技术,是建立在IP技术上的分组化、数字化的传输技术,它以分组的形式传输语音数据。其基本原理是:模拟语音信号首先经过模/数转换变成数字信号,通过IP语音压缩算法对语音数据进行压缩编码处理,然后把这些语音数据按IP等相关协议进行打包,经过IP网络把数据包传输到接收方,在接收方把这些语音数据包串起来,经过解码解压处理后,恢复成原来的语音信号,从而达到由IP网络传送语音的目的。其基本传送过程如图1所示[2]。

图1 VoIP基本传送过程

2 VoIP面临的问题

2.1 语音质量评价方法

语音质量的测量方式是凭主观感知的,采用MOS(平均主观评分)方法评价语音质量,评测方法在ITU-TP.800中定义,如表1所示。

表1 MOS值的定义

级别MOS值用户满意度

优4.0~5.0很好、听得清楚、延迟很小、交流通畅。

良3.5~4.0稍差、听得清楚、延迟小、交流欠缺通畅、有点杂音。

中3.0~3.5还可以、听不太清、有一定延迟、可以交流。

差1.5~3.0勉强、听不太清、延迟较大、交流重复多次。

劣0~1.5极差、听不懂、延迟大、交流不通畅。

2.2 带宽

带宽是指在网上传输任何业务信息时每秒所能传输的字节数。一般认为,带宽越大越有利于数据业务的传输,但任何传输介质的带宽都是有限的[3]。

2.3 时延

时延是接收到的数据包与发送数据包的时间差。时延又分为算法时延、处理时延、网络传输时延和抖动缓冲时延。

2.4 丢包

丢包率定义为在网络传输数据包时丢弃数据包的最高比率。丢包率应小于5%,当丢包率超过10%时将极大影响服务质量。

丢包的原因:线路误码或网络路由故障;传输时延过长或网络拥塞导致分组被丢弃。

2.5 抖动

抖动也叫时延变化,是指由于各种延时的变化导致网络中的数据分组到达速率的变化。如果网络抖动比较严重,那么有的话音包会因迟到而被丢弃,会产生话音的断续及部分失真,严重影响音质。延迟的变化应该在 10%以内为好。

抖动原因:排队时延;可变的分组大小;中间链路和路由器上的相对负载。

2.6 包乱序

当网络较差的时候,语音包在传输过程中很容易出现乱序现象,从而影响接收端播放。但是根据每个语音包的时间戳(Time Stamp),可以方便地判断出语音包的发送顺序,通常采用的解决方法同样是在接收端使用抖动缓存,对失序包进行调整,从而重现发端的顺序。

2.7 回声

电学回声:在传统的电话系统中,存在2-4线的转换。在电话语音的传输过程中,完成2-4转换的混合器因阻抗不匹配,造成混合器的语音“泄露”。网络延时超过25 ms电学回声对说话的人就有影响了。

声学回声:扬声器播放出来的声音被麦克风拾取后发回远端,这就使得远端通话者听到回声。声学回声又分为直接回声和间接回声。

3 VoIP的关键技术

3.1 信令技术

3.1.1 SIP协议体系结构

SIP(Session Initiation Protocol,会话初始协议)是文本格式的客户-服务器协议:客户机发起请求,服务器进行响应。SIP不是一个垂直集成的通信系统,不能独立提供业务,必须与其他协议共同使用来建立一个完整的多媒体体系结构。SIP协议栈如图2所示[4]。

图2 SIP协议栈

3.1.2 SIP系统组成

按逻辑功能区分,SIP系统由4种元素组成:用户、服务器、重定向服务器以及注册服务器。以上几种服务器可共存于一个设备,也可以分布在不同的物理实体中。

3.2 语音压缩编码技术

语音编码主要有比特率、质量、延迟和复杂度四种属性。好的编码方案,不是追求尽可能低的编码比特率,而是根据实际应用的要求对各种属性进行折衷,因为它们之间往往是有矛盾的[5]。

(1) 脉冲编码调制(PCM)

脉冲编码调制是最早的数字语音技术,不包含任何压缩算法,属于波形编码器,又称为G.711。采用8 kHz采样,量化位数为8 b,比特率为64 Kb/s,帧长度为125 μs。

(2)自适应脉冲编码调制(ADPCM)

自适应脉冲编码调制属于波形编码器,又称G.726,把64 Kb/s非线性PCM信号转换为40 Kb/s, 32 Kb/s, 24 Kb/s, 16 Kb/s的自适应脉冲编码调制ADPCM(Adaptive Differential Pulse Code Modulation)编码器。ADPCM并不像PCM编码那样直接量化语音信号,而是量化语音信号和预测信号间的差分信号。

(3) 低延时代码激励线性预测器(LD-CELP)

低延时代码激励线性预测器,又称G.728。它监听16 b的线性PCM数据流,并从每5个PCM采样产生一个10 b的代码簿指针。LD-CELP每625 μs产生10 b数据(5个PCM采样),它以16 Kb/s的速率发送。

(4) 共扼结构代数码激线性预测(CS-ACELP)

共扼结构代数码激线性预测技术,也称为G.729,是ITU-T 8 Kb/s语音编码的标准。其带宽效率为PCM的8倍,合成的话音质量很好。G.729原来是8 Kb/s的语音编码标准,现在工作范围扩展至6.4~11.8 Kb/s。G.729a是CS-ACELP算法的一个简化版本,复杂度较G.729有较大幅度的降低。

(5)多脉冲最大似然量化技术(MP-MLQ)

多脉冲最大似然量化技术,也称G.723与G.723.1,是一种用于多媒体通信、编码速率为5.3 Kb/s和6.3 Kb/s的双码率编码方案。G.723标准是制定的多媒体通信标准中的一个组成部分,可以应用于IP电话等系统中。

其中,6.3 Kb/s码率编码器采用多脉冲最大似然量化技术(MP-MLQ),5.3 Kb/s码率编码器采用代数码激励线性预测技术(ACELP)。

(6) 语音压缩编码技术比较

语音编码技术比较如表2所示。

4 VoIP的QoS保障技术

4.1 静音检测技术

静音检测又称语音活动性检测(Voice Activity Detection,VAD),它是数字信号处理器应用的一种静音压缩技术。大多数会话中一方说话和听对方说话的时间约各占一半,而且说话时还有停顿间隙,因此话音活动度只占40%左右,而约60%的时间是安静的。由于分组交换中的传输通道是统计复用的,因此,在静音时间段里可以不发送话音分组,从而进一步降低话音比特率[6]。

静音检测通过监视语音信号的功率和功率的变化,到达语音信号的频率和该频率的变化来判断语音信号能量,当低于一定门限值就认为是静默状态。在检测到讲话已经停止后,在离开分组处理之前,静音检测大约等待200 ms,这有助于防止静音检测切去讲话的尾部部分,或者讲话模式中的小停顿。类似地,语音编码器引入5 ms的时延,在检测到讲话的情况下“保持”语音信息,这意味着在静音检测确定语音信号再次出现时,前面的5 ms语音随当前语音信号一起发送。这个时延减少了前端剪切(切除了讲话的开始部分),但不能消除它。

另外,实际的应用中如果在无声期不发任何分组,收听者可能会感到不自然,因而在静音压缩算法中加入适度噪音的生成,可以给通话双方提供一种自然的通话效果。

4.2 抖动缓冲技术

为减小网络抖动对话音质量带来的影响,在对语音的处理中采用了抖动缓冲技术,即在接收方设定一个缓冲池,语音分组到达时首先进入缓冲池暂存,系统以稳定平滑的速率将分组从缓冲池取出、解压、播放给受话者。

目前的缓冲算法研究基本上可以分为两大类[7]:

(1) 固定缓冲算法

固定缓冲算法在一个语音会话持续期间为每个语音包都设定了固定的缓冲时间,并不会随着网络的变化而进行缓冲时间调整,如果在规定时间点上其对应语音包因时延抖动没有到达,则会被丢弃。

(2) 自适应抖动缓冲算法

根据接收缓冲区中的数据包或RTCP提供的参考数据来衡量网络状况,在每一个话音突起的开始调整延时播放时间。当网络状况好、抖动较小时,减小缓冲时间,以减少总体延时。反之则增加缓冲时间,以延时增加的代价来取得更好的抑制抖动的能力。该算法的优点是:具有较好的网络自适应性,会获得较好的延时和丢包平衡。

4.3 丢包补偿技术

(1) 前向纠错

前向纠错就是在原来的已经数字化的话音块上增加一些冗余信息,所付出的代价是增大了网络上传送的数据率。利用这些冗余信息,就可在还原时将丢失的话音块近似地或精确地重新构造出来。这里的“块”表示应用层的传输单位,而“分组”是网络层的传输单位。

(2) 交织

当语音信号发生大段的突发丢失,各种差错掩盖方法的效果就会大大降低,许多方法甚至无法工作,而突发的连续丢包是在Internet上遇到的典型现象,为了最大限度地发挥丢包恢复技术的作用,可以采用交织技术打乱数据的发送顺序,把大段的突发连续语音丢失转化为随机的小段丢失,交织可在对语音数据进行分组之前实施,也可在分组之后进行。这种方式与具体的语音编码方式无关,也与分组的编码方式无关,主要是对编码后的数据重新组织,但采用交织方法会给系统带来很大的时延,这是它的主要缺点。

4.4 回声消除技术

(1) 周围环境的处理[8]

声学回声最简单的控制方法是改善扬声器周围环境,尽量减少扬声器播放声音的反射。改善环境可有效地抑制间接声学回声,但对直接声学回声却无能为力。

(2) 回声抑制器

回声抑制是使用较早的一种回声控制方法。通过简单的比较判决器,将己解码的准备由扬声器播放的声音与当前话筒拾取的声音电平进行比较,如果前者高于某个阈值,就允许传至扬声器,同时关闭话筒;如果话筒拾取的声音电平高于某个阈值,则扬声器被禁止,以达到消除回声的目的。

(3) 回声消除器

回声消除器基本结构示意图如图3所示。

图3 回声消除器基本结构示意图

图3描述了声学回声消除器的基本结构,其中:u(k)代表远端语音信号;x(k)代表近端信号;u(k)经过扬声器、回声通道(传递函数为h(n))后被麦克风所拾取到的回声信号r(k);u(k)经过自适应滤波器后得到的估计信号y(k);e(k)是经过回声消除后的残差信号,理论上讲e(k)应该为零,代表无回声情况,但是实际上这种情况是不可能的,因此,需要根据残差信号e(k)和远端信号u(k)的相关差异来更新自适应FIR滤波器的系数,使得残差信号越来越小,进而逼近零。回声消除器正是通过不断修改自适应滤波器的系数,使自适应滤波器的网络传输函数h(n)和回声通道的h(n)越来越相近,使得残差信号e(k)越来越小。

4.5 网络传输技术

IP电话中的网络传输技术主要是TCP和UDP[9]。

TCP是在IP协议软件提供的服务的基础上,支持面向连接的、可靠的、面向流的投递服务。由于TCP提供了可靠的传输服务,因此TCP就不可避免地增加了许多的开销,如应答、流量控制、定时器及连接管理等。这不仅使协议数据单元的首部增大很多,而且还要占用许多的处理机资源。

UDP直接利用IP协议进行UDP数据报的传输,因此UDP提供的是无连接、不可靠的数据报投递服务。在少量数据的传输时,使用UDP协议传输信息流,可以减少TCP连接的过程,提高工作效率。在多媒体应用中,常用TCP支持数据传输,UDP支持音频/视频传输。同时也应当了解当使用UDP协议传输信息流时,用户应用程序必须负责解决数据报排序,差错确认等问题。

4.6 实时传输技术

实时传输技术主要包含两个相关的协议:RTP协议和RTCP协议[9]。

实时传输协议(Real-time Transport Protocol,RTP) 用于传送实时数据,如语音和图像数据。本身不提供任何保证实时传送数据和服务质量的能力,而是通过提供符合类型指示、序列号、时间戳、数据源标识等信息,使接收端能根据这些信息来重新恢复正确的数据流。

实时传输控制协议(Real-time Transport Control Protocol,RTCP)是RTP协议中的控制功能协议,它单独运行在底层传输层协议(如UDP)上。RTCP通过采用与RTP相同的分发机制,向会话中的所有成员周期性地发送控制信息,应用程序通过接收这些数据,从中获取会话参与者的相关资料,以及网络状况、分组丢失概率等反馈信息,从而能够对服务质量进行控制或者对网络状况进行诊断,并能够对网络拥塞进行有效的控制。

4.7 资源预留协议(RSVP)

当终端需要在一条路径上预留带宽时,向目的端发出一条消息。该消息作用于路径上的所有节点,并含有数据流信息,包括平均速率、突发数据包长度等。当路径上的节点收到消息后,分析数据流信息,决定应保留多少带宽。如果此时可用带宽不足则拒绝申请,否则设置队列管理方法,同时将消息向下一个节点传送。因此RSVP可以为应用提供有保障的带宽,有效减少了传输延迟和抖动,保证信息传输的实时性和可靠性[9]。

4.8 区分服务技术

区分服务作为相对于综合服务更具优势的另一种QoS解决方案,由IETF提出,提出的目的是区分业务的级别,并根据业务类型提供不同的服务质量保证。相对于RSVP来说,它并不为每一个带宽请求保留一条端到端的资源预留通道,而是根据业务等级的不同来分配相应的带宽资源,实际上就是牺牲低优先级业务的资源来保证高优先级业务的QoS。

为确保高质量VoIP通信,在带宽不足的IP网络中可采用音频优先技术,即传输过程中IP网络路由器设置音频数据包为最高优先级。只要路由器发现有音频数据包就将延时对其他数据包的发送,转而传输音频数据包以减少其延时,这样,网络延时及网络抖动对音频质量的影响均将显著降低。

5 结 语

目前,由于Internet是一种开放式的网络结构体系,很难用一种协议结构将所有的域统一起来。所以,要在现有网络条件下实现端到端的有保障QoS,就必须寻求一种将不同网域的不同协议联系起来的方式,即联系异域网络的中间件的实现。每个网域都应该执行一种相应的服务等级约定以保证实时语音数据能以期望的质量传输。同时由于现存的几种保障QoS的方式各有优缺点,导致很难在一个大范围网域内只应用一种保障QoS的标准。所以,应用综合的QoS解决方案的产生将有效地解决这一问题[10]。

参考文献

[1]International Telecommunication Union. ITU-T RecommendationG.114[R]. Technical Report, 1993: 343-364.

[2]陈德来.IP电话原理及相关技术标准[J].电信快报,1999(8):22-26.

[3]张登银,孙精科.VoIP技术分析与系统设计[M].北京:人民邮电出版社,2003.

[4]张智江,张云勇.SIP协议及其应用[M].北京:电子工业出版社,2005.

[5]张宇.VoIP若干关键技术的研究[D].杭州:浙江大学,2007.

[6]ASTON Robert, SCHWARZ Joyce. Multimedia: gateway to the next millennium[M]. Morgan: Kaufmamt Publishers,1994.

[7]COLLINS Daniel. Carrier grade voice overIP[M]. [S.l.]: McGraw-Hill, 2000.

[8]黄永峰,周可,张江陵.IP电话系统中的回声处理[J].数据处理与采集,2000,15(4):467-470.

[9]王建新,裴慧民.基于IP的QoS体系结构及路由策略研究[J].电信快报,2001(10):26-28.

[10]GAY S L, BENESTY J, MORGAN D R, et al. Advances in network and acoustic echo cancellation[M]. Berlin: Springer, 2001.

上一篇:基于伪并行遗传算法的MC-CDMA多用户检测技术研... 下一篇:某机载短波电台干扰无线电高度表的行为级仿真...