首页>>厂商>>语音识别与合成>>捷通华声

开放式语音架构与新一代呼叫中心应用
--具有前瞻性的捷通华声"奥运之声"TTS引擎解析

2004/04/23

呼叫中心的发展趋势

  随着改革开放的脚步不断加快,中国在政治、经济、文化等各个领域的国际化程度也在迅速提高,特别是近几年来,随着中国加入WTO、成功申办北京奥运会、成功申办上海世博会、博鳌论坛的成功举办,人们可以清楚的看到,中国已经成为世界上最重要的国际交流中心之一。在中国走向世界的进程中,各行各业都在不断进行着自我完善,来适应这一变化的需要,CTI行业也不例外。

  在CTI领域里,人们首先感受到的是越来越多的国际知名企业、优秀产品、先进技术相继进入中国CTI市场,即为中国的CTI技术发展提供了强大的动力,也给国内的企业带来了巨大的压力。各厂商在不断提升自我竞争能力的同时,也在积极寻找CTI新的应用点,进而使整个CTI产业无论是在技术上还是在应用上都在朝着国际化方向飞速发展。

  捷通华声公司作为语音技术核心供应商,敏锐的捕捉到了这一市场变化,并早在2年多以前便开始着手准备,因而走了语音产业国际化发展的前列。

  捷通华声公司由北京捷通软件公司投资、我国著名语音专家吕士楠教授主持创建于2000年10月,并于2001年7月发布了具有里程碑意义的新一代语音合成产品--jTTS2.0,从此语音合成技术进入了大规模商用时代。就在各竞争对手争相模仿的时候,捷通华声已经清楚的认识到:语音技术的发展必须走国际化道路。一方面,我们的技术必须走出国门,与国际同类产品同场竞技,取得国际上的一致认可;另一方面,我们必须积极吸取国外先进的经验,使自己的技术能够得到不断的提升。在随后的1年多中,捷通华声按照这一方针"内外兼修",无论是在技术上还是在市场上都获得了巨大的成功,并已成为国际知名语音技术供应商之一。

  2003年初,北京科技奥运十大重点项目陆续启动,捷通华声凭借雄厚的技术实力和良好的企业信誉,一举中标《面向奥运的多语言语音合成产品研制》项目,为捷通华声进一步发展多语言语音合成产品提供了良好的契机。

  "科技奥运"项目的需求与目前中国的呼叫中心市场需求有着很高的一致性,那就是要求开放式的架构和国际化服务手段、服务质量。呼叫中心已经不再是只为中国人服务,而是要充分考虑到各种国际政治、文化、商业活动的实际需求,为世界各国友人提供服务的必要手段。针对这一需求,捷通华声用了近一年的时间潜心研究,并于2004年初发布了最新的语音合成产品"奥运之声"(OlyVoice)--捷通华声语音合成奥运版v4.0。该产品着重设计了开放式的系统架构和多语种语音合成需求。

奥运之声--捷通华声开放式语音合成架构

  捷通华声语音合成奥运版v4.0(简称:jTTS奥运版)是以一种开发式的架构进行设计的(如下图所示),其核心是一套统一的对外编程接口(API-Application Programming Interface),即jTTS API 4.0,以及统一的多语种引擎管理模块,即jTTS_ML.DLL。多语种的引擎(例如中文引擎jTTS_CH.DLL,英文引擎jTTS_EN.DLL等)在多语种引擎管理模块的调度下进行实际的合成工作,而目前尚未提供的其他语种的引擎也可以方便地加入到这个体系结构中来。


统一的应用程序接口

jTTS_ML.DLL是主要模块,在这个模块中完成多数统一的工作。包括:

·各个语种引擎和音库的管理、加载、卸载、选择。
·与外部设备相关而与具体引擎无关的工作,例如打开文件,声卡或文件输出等。
·各个语种几乎相同的工作,例如SSML TAG的处理等。
  jTTS_ML.DLL基本保持和jTTS_MA.DLL函数接口的一致性,但进行了一定的改动。这些改动主要是吸取了在前几个版本中的开发经验和用户的意见反馈,因此现有的API更为简洁方便、功能却更为强大。

充分的兼容性设计
  新版本的jTTS_MA.DLL是为了保持向下兼容,它完全继承原有的jTTS API 3.0的所有函数,不增加也不删减任何函数。因此,它也仅能完成以前版本的功能(但可以利用最新的中文引擎,提高声音质量),提供它的目的仅仅在于用户能够不改动原有程序继续运行,但如果希望使用新的功能,必须使用jTTS_ML.DLL,利用新的API进行开发。

支持多种调用方式
  jTTS4.ocx是在jTTS_ML.DLL之上的一个ActiveX控件,主要作用是以COM接口的方式提供了TTS的功能,方便Web页面开发或者VB等编程语言的开发。由于COM接口支持的开发工具非常广泛、语言类型多种多样,因此用户可以通过使用jTTS4.ocx组件来开发TTS应用程序,以达到适应多种开发环境、简化开发过程的目的。使用此控件可以实现向文件或声卡输出,所有的设置、回调等功能也和jTTS_ML.DLL所提供的功能基本类似,但是它没有底层合成(即Session)的概念,也不能直接获得语音数据流。

  语音合成服务器jTTSService.EXE提供了对基于网络的TTS服务的支持,让用户可以采用网络合成方案或集群网络合成方案进行合成。此语音合成服务器软件作为Windows系统上的一个服务(Service)或Linux系统上的一个守护程序(daemon)实现,监听网络端口号,如果有连接,则通过jTTS Service Protocol 4.0版本为客户端提供语音合成的服务。

良好的可扩展性
  系统采用外挂DLL的方式来提高扩展性。外挂DLL包括两种:一种是文本抽取DLL,另一种是语音格式转换DLL。在阅读文件时(通过jTTS_Play或jTTS_PlayToFile),可以通过外挂的DLL来进行文本的抽取,然后利用TTS的功能进行合成,例如阅读DOC文件或者Email。而得到语音数据后,可以利用外挂的语音格式转换DLL来得到系统本身不支持的语音格式。

新增多种实用功能
·支持多语种,支持多领域的设置
·支持音色的查找、访问、加载等
·支持SSML (语音合成标记语言, Speech Synthesis Markup language)
·可以直接播放文本文件,也支持外挂抽取文本的DLL以支持其它格式。
·支持GB(包括GB2312, GBK, GB18030)、Big5、Shift-JIS、ISO-8859-1、Unicode、Unicode Big Endian、UTF8等各种字符集,自动识别具有BOM标记的Unicode文本。
·支持同步、异步合成一个Session,通过被动的回调函数方式给用户传递数据。在原有版本的主动获取语音数据的基础上又提供了一个选择。
·可以外挂语音格式转换程序。

  所有这些,都是捷通华声在语音合成架构上具有前瞻性的设计,通过这样的系统结构,用户可以灵活的为新一代呼叫中心、UMS系统添加丰富的语音合成资源,使整个系统最大限度的发挥其功效,为最终用户提供方便实用的服务体系。

  除了在系统结构上的重大改进外,捷通华声在语音合成核心上也进行了深入的研究,并取得了重大突破。与以往的版本相比,新的中文合成核心主要进行了下列改进:

新的英文引擎支持
中文引擎放弃了原来使用的第三方的英文引擎,采用了自行开发的英文引擎,达到了清晰流利、中英文同一音色的效果。

新的预处理
·采用了基于分词和词性标注一体化的前端分析算法以及基于统计的韵律词分析算法,提供了更好的韵律分析结果,阅读更为自然流畅。
·全面改进了多音字处理算法,多音字的误读率大为下降。
·改进了数字符号读法的分析算法,数字符号的读法的阅读准确率更高。同时支持数字、符号读法的外部规则使用,提供给用户自行定义数字符号读法的方法。

多领域支持
  中文引擎提供了多个领域的优化资源包。例如,在天气预报领域提供了利用模板拼接技术的特定领域音库,在金融证券、旅游餐饮、体育赛事等领域提供了特定领域词库、预选音音库等。通过这些针对不同专业领域的优化资源包,可以大大提高特定领域文本的合成效果。同时,多领域支持也采用了一种模块化的方式,用户可以自行地安装不同领域的资源包。

对SSML的支持
  SSML(Speech Synthesis Markup Language)语音合成标记语言定义了一套丰富的,基于XML的标记语言以支持在Web语音浏览器或者其它应用程序中生成合成语音。这一标记语言的的主要作用在于提供给合成内容的作者一个标准的方法来控制语音的各个方面,例如发音、音量、语速、基频等。SSML目前是W3C的草案,具体内容参见 http://www.w3.org/TR/speech-synthesis/

  从jTTS 4.0开始,捷通华声语音合成系统定义了S3ML (SinoVoice Speech Synthesis Markup Language)-捷通华声语音标记语言。S3ML符合基本的SSML规范,但更为详细地定义了SSML没有精确定义的部分(例如的具体语法),同时也支持一些针对中文语音合成的扩展。

  新版本将继续支持原jTTS 3.0版本支持的文本标注方法(成为jTTS Tag),但jTTS Tag将不再发展。如有需要,新的应用程序应该使用S3ML对文本进行标注,以控制语音合成效果的功能,并获得灵活的可扩展性。

  面向科技奥运,面向新一代呼叫中心应用,捷通华声做好了充分的准备,奥运之声(OlyVoice)将与CTI行业的众多合作伙伴一起,引领用户进入一个全新的、开放式的CTI时代,整个CTI行业将在国际化、标准化、产业化方向上迈上一个新的台阶。

捷通华声公司供稿 CTI论坛编辑



相关链接:
捷通华声发布jASR5.5 ASR价格面前将无怯步 2008-04-16
捷通华声TTS成功登陆中国邮政储蓄银行 2008-04-03
捷通华声 jTTS 5.5 全面支持 MRCPv2标准 2008-03-31
捷通华声移动导航HCI解决方案广受青睐 2008-03-26
身边的“智能”生活 2007-12-28

分类信息:     文摘   技术_语音合成_文摘