首页>>厂商>>语音识别与合成>>捷通华声

奥运之声——捷通华声语音合成技术v4.0奥运版

2006/01/26

一、产品背景

  捷通华声公司于2002年12月承接了国家信息产业部下达的《奥运之声-面向奥运的多语种声讯服务平台》任务的开发工作。以此项目为基础,捷通华声全力投入到多语种语音合成平台的设计和开发工作中,并将此作为jTTS4.0升级的重要内容。

  在2003年4月,捷通华声公司又承担了北京市科委下达的《面向奥运的多语种语音合成产品研制》项目。这一项目是《面向奥运的多语言智能信息服务网络系统》的一项重要的子课题,《面向奥运的多语言智能信息服务网络系统》是北京市科学技术委员会批准的2003年至2004年度重点科研项目,也是科技奥运十大专项之一。多语种语音合成产品是构成整个服务网络系统的重要组成部分,其主要目的是:借助语音合成技术,利用计算机将文本自动播报出来,按用户选定的语种自动播报出来,本产品支持包括汉语、英语、日语在内的多种语言,从而打破语言的界限和隔阂,及时地以无障碍的语音形式提供各类奥运信息;采用语音这种最自然的人机交流方式,提供信息发布、信息查询、人机交互等多种形式的信息服务,保证任何人在任何时间、任何地点、通过任何手段获取奥运相关信息。

  《jTTS4.0多语种语音合成平台产品》正是在这个背景下推出的。我们相信,这一产品的推出,必然会有力地促进国际交流,推动奥运建设,为"科技奥运"、"人文奥运"贡献自己的力量。

二、产品结构

1、核心结构


  jTTS4.0多语种语音合成平台系统结构如上图所示。jTTS4.0多语种语音合成平台是以一种开发式的架构进行设计的,其核心是一套统一的对外编程接口(API-Application Programming Interface),即jTTS API 4.0,以及统一的多语种引擎管理模块,即jTTS_ML.DLL。多语种的引擎(例如中文引擎jTTS_CH.DLL,英文引擎jTTS_EN.DLL等)在多语种引擎管理模块的调度下进行实际的合成工作,而目前尚未提供的其他语种的引擎也可以方便地加入到这个体系结构中来。

  jTTS_CH.DLL, jTTS_JP.DLL, jTTS_EN.DLL 等则为各个语种的TTS实际引擎。引擎和音色库的基本概念如下:
2、产品体系结构


  用户在使用时同样可以采用本地合成方案、网络合成方案、集群网络合成方案进行合成工作。

三、产品特点
  1. 支持多语种,支持多领域的设置。

  2. 支持音色的查找、访问、加载等。

  3. 支持SSML(语音合成标记语言,Speech Synthesis Markup language)。

  4. 可以直接播放文本文件,也支持外挂抽取文本的DLL以支持其它格式。

  5. 支持GB(包括 GB2312, GBK, GB18030)、Big5 、Shift-JIS、ISO-8859-1、Unicode、Unicode Big Endian、UTF8 等各种字符集,自动识别具有 BOM 标记的 Unicode 文本。

  6. 支持同步、异步合成一个Session ,通过被动的回调函数方式给用户传递数据。在原有版本的主动获取语音数据的基础上又提供了一个选择。

  7. 可以外挂语音格式转换程序。

  8. 全新的中英文混读引擎

  9.   中文引擎放弃了原来使用的第三方的英文引擎(即Microsoft Free的SAPI 英文引擎),采用了自行开发的英文引擎,达到了清晰流利、中英文同一音色的效果。
  10. 预处理功能

  11. 中文引擎在预处理部分做了比较大的改进:
    1. 采用了基于分词和词性标注一体化的前端分析算法以及基于统计的韵律词分析算法,提供了更好的韵律分析结果,阅读更为自然流畅。

    2. 全面改进了多音字处理算法,多音字的误读率大为下降。

    3. 改进了数字符号读法的分析算法,数字符号的读法的阅读准确率更高。同时支持数字、符号读法的外部规则使用,提供给用户自行定义数字符号读法的方法。

  12. 多领域支持

  13.   中文引擎提供了多个领域的优化资源包。例如,在天气预报领域提供了利用模板拼接技术的特定领域音库,在金融证券、旅游餐饮、体育赛事等领域提供了特定领域词库、预选音音库等。通过这些针对不同专业领域的优化资源包,可以大大提高特定领域文本的合成效果。同时,多领域支持也采用了一种模块化的方式,用户可以自行安装不同领域的资源包。

  14. 对SSML的支持

  15.   SSML(Speech Synthesis Markup Language) 语音合成标记语言定义了一套丰富的,基于 XML 的标记语言以支持在Web语音浏览器或者其它应用程序中生成合成语音。这一标记语言的的主要作用在于提供给合成内容的作者一个标准的方法来控制语音的各个方面,例如发音、音量、语速、基频等。
  从jTTS 4.0开始,捷通华声语音合成系统定义了S3ML (SinoVoice Speech Synthesis Markup Language) --捷通华声语音标记语言。S3ML符合基本的SSML规范,但更为详细地定义了SSML没有精确定义的部分(例如的具体语法),同时也支持一些针对中文语音合成的扩展。

捷通华声公司供稿 CTI论坛编辑



相关链接:
捷通华声发布jASR5.5 ASR价格面前将无怯步 2008-04-16
捷通华声TTS成功登陆中国邮政储蓄银行 2008-04-03
捷通华声 jTTS 5.5 全面支持 MRCPv2标准 2008-03-31
捷通华声移动导航HCI解决方案广受青睐 2008-03-26
身边的“智能”生活 2007-12-28

相关频道:           技术_语音合成_解决方案