首页   新闻  文摘   行业   产品  技术  厂商  标准  BBS  导航  搜索
呼叫中心 | CRM | 统一通信 | 企业通信 | VoIP | 视像通讯 | 语音应用 | 热点专题

首页>>厂商>>交换机/ACD系统平台厂商>>杭州迈可行

浅谈ASR和TTS技术在CTI中的应用

2004/01/02

什么是ASR、TTS?

  计算机技术总是在朝着功能更强大、使用更方便的方向发展,用户的需求永远都是技术前进的动力。ASR和TTS的出现,让人和计算机的距离更加靠近,人机接口更加自然。由于技术(识别率不够高)和人们习惯上的原因,ASR离真正的普及还有一段距离。但是,在通信领域,由于CTI的广泛应用,计算机技术不断融入通信平台,这项技术正在如火似涂的发展、普及。VoiceXML就是一个很好的例子,它的应用就是以ASR和TTS作为基础的。

  ASR,英文的全称是Automated Speech Recognition,即自动语音识别技术,它是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。语音识别系统的性能大致取决于以下4类因素:1. 识别词汇表的大小和语音的复杂性;2. 语音信号的质量;3. 单个说话人还是多说话人;4. 硬件。

  TTS,英文全称是TextToSpeech,即文语转换,又称为计算机语音合成,它的过程和ASR刚好相反,是把计算机中任意出现的文字转换成自然流畅的语音输出。一般认为,语音合成系统包括三个主要的组成部分:文本分析模块、韵律生成模块和声学模块。目前,TTS的技术已经可以达到商业化的地步。

SAPI简介

  目前,市场上有很多比较成熟的语音ASR和TTS产品,而且他们大多数都支持二次开发,如微软的Speech Application SDK(SASDK)、IBM的Dutty++等。他们能识别(生成)英语、日语和中文等不同国家的语言,Dutty++甚至能够识别某些地区的方言,如广东的方言-粤语。下面我们以SAPI作为例子,简单的介绍一下ASR和TTS的开发引擎。

  微软的SAPI是作为Windows的一部分,已经被被集成在Windows里面。相对于其他引擎,他的识别率也比较高,如果做过适应性调整,识别率可以达到90%以上,而且他的开发包是还可以免费获取的,各种文档资源也很齐全,很方便做二次开发。由于SAPI是作为Windows的一个独立组件在发展,版本更新也比较快。

  最新的SAPI 3.1提供了基于COM的高级编程接口,应用程序通过这些接口与语音引擎打交道。SAPI将ASR和TTS功能集成在同一个语音引擎中,TTS可以将文本和文件合成为语音,ASR则是将人的声音信号转换为可读的文本或文件。


如何将ASR和TTS功能附加到CTI应用中去

  对于设备提供商和业务提供商,他们采用语音识别和文语转换的方式可能不太一样。某些比较先进的交换平台,已经在交换机的内部实现了ASR和TTS的功能,并作为标准接口的一部分对外提供,业务开发商只需要简单的调用他们即可以在业务中使用该功能。如杭州迈可行的MPS2000交换系统,他们就集成了ASR和TTS,并将他们作为统一业务接口(USI)的一部分对外提供。而对那些应用开发商来说,大部分的时候并没有这么幸运,他们选择的交换机可能大多数都不会支持ASR和TTS,因此,要想在业务中加入这些功能的话,只有自己基于某种引擎进行二次开发。

  下面,我们针对两种不同当前情况,站在业务开发商的角度,看如何将ASR和TTS功能附加到我们的应用中去。

带语音接口的PBX

  目前,市场上真正支持ASR功能的开发式业务接口并不多,主要有微软的TAPI电话应用接口和迈可行的USI(统一业务接口)。这两种接口都不是标准的电话业务接口,不过,他们的应用却很广泛。

  这里还是以MPS2000系统为例,MPS2000是一套面向下一代网络的、集成了多种业务能力的交换平台。它具有很强的接入和组网能力,支持V5.2、SS7、ISDN PRI等信令,以及面向IP的H.323、SIP、MeGaCo等媒体控制协议。同时,它的业务资源也非常丰富,有IVR、会议、会议抑制、DTMF、ASR、TTS等资源,能面向各种不同的应用。

  在MPS2000系统中,ASR被抽象为一种简单的可替代DTMF进行语音拨号的资源,用户提起电话,可以不用按键,直接呼叫某人或者说出电话号码,就可以呼出。TTS则被抽象为一种文本放音的资源,你可以摒弃以往的放音模式(通过路由文件播放),而直接把你想说的文本向用户放出来

下图显示了MPS2000中ASR和TTS的应用层次关系:


不带语音接口的PBX

  对于不带语音接口的PBX,就需要业务开发商自己去选择合适的平台,包括媒体采集设备、语音识别引擎等,并在此基础上进行二次开发。

下面这副图描述了这种应用的业务模型:


  媒体采集设备主要用来采集各种语音信号,如对普通的电信网,就是PCM a律信号的采集;而对VOIP应用,采集的信号可能有很多种,包括G.711/G.723/G.729等各种语音格式。同时,该设备还需要具备一定的媒体转换能力,能将各种媒体流转换为ASR能够识别的语音格式。

语音识别技术的前景展望

  随着电信行业的竞争日益加剧,网络运营商和业务开发商都在寻找不同的业务增长点去吸引客户。ASR和TTS作为一种诱人的新技术,如果能很好的嵌入到增值业务的应用中去,必将形成一个很好的应用前景。

杭州迈可行公司供稿 CTI论坛编辑



  ·Polycom 极致高清视频会议体验活动---免费获赠万元奖品
  ·“呼动中国”:东进技术多媒体呼叫中心招募增值渠道合作伙伴

  ·招聘:商路通 怡海软件 正音科技 上海宝东 东进通讯 亿迅(中国)

  ·《2008中国呼叫中心产业发展研究报告》正式出版 2008-8-25  
  ·最新资料:《企业呼叫中心建设指南》 《企业通信案例及方案大全》
  ·免费索取:《多媒体交换机资料》   技术前沿资料:《IP、无线和视频方案》


  ·新太科技企业呼叫中心解决方案
  ·TTS在线演示:InterPhonic 5.5系统
  ·IP分布式呼叫中心在各行业应用

            


企业会员
易宝通讯 三汇软件 陕西公众信产公司
拓敏信息 卓大兴业 正音科技
加入办法 ->





CTI论坛推荐
·CTstage 5i客户联络中心-适用大规模分散网点
·三友亚星:上海红孩子电话营销和客服系统
·什么是IP分布式呼叫中心
·语音合成:InterPhonic 5.5在线演示系统
·东进技术:Seegoe Enterprise/Office呼叫中心
·HXD09可编程智能语音交换机
·鼎晟DS-iTouch联络中心
·新太科技企业呼叫中心解决方案
   
相关链接
CTI论坛周刊 融合通信专栏
行业案例汇编 免费发布新闻
管理员俱乐部 服务与营销论坛

热 点 专 栏
|业界新闻|论坛文摘|行业应用|产品展示|技术天地|厂商汇总|免责声明|咨询服务|公司简介|联系方法|广告服务|企业会员|

编辑投稿信箱      如何查找厂商联系方法

电话:010-82012787,82079677   传真:010-62041062
呼叫中心建设及运营管理咨询服务:优胜资讯(010)87768798 87768726