首页   新闻  文摘   行业   产品  技术  厂商  标准  BBS  导航  搜索
呼叫中心 | CRM | 统一通信 | 企业通信 | VoIP | 视像通讯 | 语音应用 | 热点专题

首页>>厂商>>语音识别与合成>>捷通华声

奥运之声——捷通华声语音合成技术v4.0奥运版

2006/01/26

一、产品背景

  捷通华声公司于2002年12月承接了国家信息产业部下达的《奥运之声-面向奥运的多语种声讯服务平台》任务的开发工作。以此项目为基础,捷通华声全力投入到多语种语音合成平台的设计和开发工作中,并将此作为jTTS4.0升级的重要内容。

  在2003年4月,捷通华声公司又承担了北京市科委下达的《面向奥运的多语种语音合成产品研制》项目。这一项目是《面向奥运的多语言智能信息服务网络系统》的一项重要的子课题,《面向奥运的多语言智能信息服务网络系统》是北京市科学技术委员会批准的2003年至2004年度重点科研项目,也是科技奥运十大专项之一。多语种语音合成产品是构成整个服务网络系统的重要组成部分,其主要目的是:借助语音合成技术,利用计算机将文本自动播报出来,按用户选定的语种自动播报出来,本产品支持包括汉语、英语、日语在内的多种语言,从而打破语言的界限和隔阂,及时地以无障碍的语音形式提供各类奥运信息;采用语音这种最自然的人机交流方式,提供信息发布、信息查询、人机交互等多种形式的信息服务,保证任何人在任何时间、任何地点、通过任何手段获取奥运相关信息。

  《jTTS4.0多语种语音合成平台产品》正是在这个背景下推出的。我们相信,这一产品的推出,必然会有力地促进国际交流,推动奥运建设,为"科技奥运"、"人文奥运"贡献自己的力量。

二、产品结构

1、核心结构


  jTTS4.0多语种语音合成平台系统结构如上图所示。jTTS4.0多语种语音合成平台是以一种开发式的架构进行设计的,其核心是一套统一的对外编程接口(API-Application Programming Interface),即jTTS API 4.0,以及统一的多语种引擎管理模块,即jTTS_ML.DLL。多语种的引擎(例如中文引擎jTTS_CH.DLL,英文引擎jTTS_EN.DLL等)在多语种引擎管理模块的调度下进行实际的合成工作,而目前尚未提供的其他语种的引擎也可以方便地加入到这个体系结构中来。

  jTTS_CH.DLL, jTTS_JP.DLL, jTTS_EN.DLL 等则为各个语种的TTS实际引擎。引擎和音色库的基本概念如下:
  • 每个引擎可以支持多个语种。

  • 可以有多个引擎支持同一个语种,例如上图中的 jTTS_CH2.DLL也支持中文。

  • 每个引擎可以有多个音色(一般也对应了多个音库),每个音色都有一个唯一的GUID 。

  • 每个音色只能支持一种语种。

  • 每个音色可以支持多个领域 (Domain),不同音色可以支持不同的领域范围。

  • 每种方言(例如广东话)是作为一个独立语种出现。
2、产品体系结构


  • 开发工具包--包括开发所需的头文件、链接库文件、示例程序。

  • 语音合成服务器--语音合成服务软件、监视工具等。

  • 基本运行时刻库--包括最基本的引擎管理模块,通用工具,说明书等。

  • 多个独立的音库--包括相应的合成引擎和所需的文本分析库、音库。

  • 多个独立的资源包--每个资源包针对某个音库以及一个特定领域。
  用户在使用时同样可以采用本地合成方案、网络合成方案、集群网络合成方案进行合成工作。

三、产品特点
  1. 支持多语种,支持多领域的设置。

  2. 支持音色的查找、访问、加载等。

  3. 支持SSML(语音合成标记语言,Speech Synthesis Markup language)。

  4. 可以直接播放文本文件,也支持外挂抽取文本的DLL以支持其它格式。

  5. 支持GB(包括 GB2312, GBK, GB18030)、Big5 、Shift-JIS、ISO-8859-1、Unicode、Unicode Big Endian、UTF8 等各种字符集,自动识别具有 BOM 标记的 Unicode 文本。

  6. 支持同步、异步合成一个Session ,通过被动的回调函数方式给用户传递数据。在原有版本的主动获取语音数据的基础上又提供了一个选择。

  7. 可以外挂语音格式转换程序。

  8. 全新的中英文混读引擎

  9.   中文引擎放弃了原来使用的第三方的英文引擎(即Microsoft Free的SAPI 英文引擎),采用了自行开发的英文引擎,达到了清晰流利、中英文同一音色的效果。
  10. 预处理功能

  11. 中文引擎在预处理部分做了比较大的改进:
    1. 采用了基于分词和词性标注一体化的前端分析算法以及基于统计的韵律词分析算法,提供了更好的韵律分析结果,阅读更为自然流畅。

    2. 全面改进了多音字处理算法,多音字的误读率大为下降。

    3. 改进了数字符号读法的分析算法,数字符号的读法的阅读准确率更高。同时支持数字、符号读法的外部规则使用,提供给用户自行定义数字符号读法的方法。

  12. 多领域支持

  13.   中文引擎提供了多个领域的优化资源包。例如,在天气预报领域提供了利用模板拼接技术的特定领域音库,在金融证券、旅游餐饮、体育赛事等领域提供了特定领域词库、预选音音库等。通过这些针对不同专业领域的优化资源包,可以大大提高特定领域文本的合成效果。同时,多领域支持也采用了一种模块化的方式,用户可以自行安装不同领域的资源包。

  14. 对SSML的支持

  15.   SSML(Speech Synthesis Markup Language) 语音合成标记语言定义了一套丰富的,基于 XML 的标记语言以支持在Web语音浏览器或者其它应用程序中生成合成语音。这一标记语言的的主要作用在于提供给合成内容的作者一个标准的方法来控制语音的各个方面,例如发音、音量、语速、基频等。
  从jTTS 4.0开始,捷通华声语音合成系统定义了S3ML (SinoVoice Speech Synthesis Markup Language) --捷通华声语音标记语言。S3ML符合基本的SSML规范,但更为详细地定义了SSML没有精确定义的部分(例如的具体语法),同时也支持一些针对中文语音合成的扩展。

捷通华声公司供稿 CTI论坛编辑


        


发表评论


  ·融合通信专家Dialogic——传真主题巡展 [7月8-15日 北京 上海 广州]
  ·思科统一通信开发者日 [7月8-11日 上海 广州 北京]
  ·“呼动中国”:东进技术多媒体呼叫中心招募增值渠道合作伙伴
  ·招聘:东进通讯 亿迅(中国) 亿博科创 信普飞科 正音科技 奈科科技 中科大讯飞 易宣科技

  ·大唐电信DC-NGNCC IP呼叫中心平台
  ·《2007中国企业通信(呼叫中心)市场研究报告》出版  
  ·最新资料:《企业呼叫中心建设指南》 《企业通信案例及方案大全》
  ·免费索取:《多媒体交换机资料》   《IP、无线和视频方案》

  ·"CTstage 5i"客户联络中心系统--适用大规模分散网点
  ·大幅度砍掉大容量呼叫中心的成本
  ·东进Seegoe Enterprise/Office呼叫中心产品介绍

            


企业会员
恒生电子 恒融数码 Nuance
一维天地 新太科技 敏迪网络
加入办法 ->



CTI论坛推荐
·东进技术:Seegoe Enterprise/Office呼叫中心
·HXD09可编程智能语音交换机
·大幅度砍掉大容量呼叫中心的成本
·新太科技成功中标康佳集团呼叫中心项目
·上海维卡VN系列电话语音卡推出
·大唐电信DC-NGNCC IP呼叫中心平台
·"CTstage 5i"客户联络中心-适用大规模分散网点
·三友亚星:上海红孩子电话营销和客服系统
   
相关链接
CTI论坛周刊 融合通信专栏
行业案例汇编 免费发布新闻
管理员俱乐部 服务与营销论坛

热 点 专 栏
|业界新闻|论坛文摘|行业应用|产品展示|技术天地|厂商汇总|免责声明|咨询服务|公司简介|联系方法|广告服务|企业会员|

编辑投稿信箱      如何查找厂商联系方法

电话:010-82012787,82079677   传真:010-62041062
呼叫中心建设及运营管理咨询服务:优胜资讯(010)87768798 87768726