首页 > 新闻 > 标准 >

CSSML(中文语音合成标记语言)的发展与应用

2003-12-17 00:00:00   作者:   来源:   评论:0  点击:


  近年来,随着中文语音技术的迅速发展和应用的逐步深入,语音产业的广阔市场及其所凸现的强大的产业带动效应已经初步显示出来。为促进中文语音产业的蓬勃发展,国家863专家组、国家信标委和技术监督局联合决定由科大讯飞作为唯一的企业代表牵头制订中文语音技术接口标准与规范。2003年10月15日,由国家信息产业部主办、安徽中科大讯飞信息科技有限公司承办的"语音标准研讨会"在合肥顺利召开。来自国家信标委、863专家组、相关科研院校的语音技术专家、学者和语音技术的关键应用厂商共40余人参加了此次会议。会上确定了由科大讯飞牵头制定语音标准。
  CSSML(Chinese Speech Synthesis Markup Language),即中文语音合成标记语言,正是在上述背景下由科大讯飞起草,经历数次中文语音技术标准研讨会讨论后形成的。
  CSSML标记语言针对中文合成领域内的特殊要求,对W3C定义的SSML规范中的标记进行扩展,并与SSML完全兼容。SSML(语音合成标记语言)是由W3C制定并在VoiceXML中使用,作为电话语音流程中语音合成控制的标准。SSML的基本任务就是在不同的应用平台上为合成文本提供一个标准的控制语音输出的方法,例如发音、音量、音调、语速等参数。而VoiceXML作为人与电话应用交互的流程描述语言,在当今的语音门户、统一消息平台等以语音驱动的应用中正发挥着越来越重要的作用。
  CSSML在交互式语音应用中前景广阔。通常,语音合成(Text-To-Speech)系统会根据当前的语流环境确定文本的具体合成方式,例如,数字按数值发音还是按数字串发音、人名地名的识别、分句、英文按单词发音或者按字母发音等等。
  随着语音技术的迅速进步,目前这种自动处理在一般的语料中已经可以达到很好的效果,但用户可能使用到一些专业性较强的、不符合常规的文本,特定文本集合的发音本身固有的不确定性往往是现有语音合成系统需要面对的一个难题,合成系统在处理这些文本时可能会出现一些错误,而使用加词、特殊规则等手段难以解决,这时用户可以通过CSSML标记文本来指定文本的合成方式,灵活解决一些语音合成系统难以自动处理的问题。再如,随着信息服务的不断丰富与深入,运营服务商常常需要面临在同一语音平台上需要提供不同的应用的情况。通过CSSML可以为同一平台上的不同应用指定相应的合成风格与方式,从而满足不同客户的个性化要求。
  CSSML中使用基础元素指定文本的格式。例如CSSML语言提供了一个段落元素、句子元素和词语元素。通过像指定段落一样指定句子、词语的地址,包括起始地址和终止地址,根据制定的格式,语音合成系统就能更准确的生成语音。
  CSSML语言提供的Break元素,可以让用户调整词语间停顿的时长,以逼近最真实的发音风格。用户也可以通过文本替换"sub"元素,将合成文本中的特定文字替换为指定的文字,这在面向一些缩写词或者特殊用语的语音合成中非常实用。
  CSSML还提供指定某个预定的词语或者词语集合发音的标记。这个功能由"say-as"元素来实现。它是SSML中一个非常有用的组件。它能让你指定一个模板,这个模板描述如何发音某个单词或者单词集合。通过"say-as",我们可以为缩写的单词指定如何发音,也可以为拼写与发音不同的单词指定发音。我们还可以列出数字和日期之间的区别。"say-as"元素包含了对email地址、货币和电话号码等的支持。
  CSSML语言高级特性之一还体现在它的"prosody"元素上。通过它我们可以以某种指定地方式生成某个确定的文本集合的语音。我们可以指定声音的语调、范围、语速(单词每分钟)。通过指定一个文本集合的"prosody"元素值,我们可以更精确的定义如何生成语音。
  随着中文语音技术的迅速发展以及市场应用的不断深入,其前景日益受到来自社会各方面的重视,国家相关管理部门为了规范中文语音合成的良性发展而委托科大讯飞制定的CSSML,必然在今后的中文语音合成领域中发挥着至为重要的规范作用。作为中文语音技术与市场领导者的科大讯飞公司,从其InterPhonic CE 2.1产品开始已全面支持CSSML。为了便于用户实际应用,在InterPhonic CE 2.2产品中,科大讯飞提供了CSSML Editor-一个可视化的CSSML编辑工具,帮助用户直观快速的生成、试听和发布CSSML文本。
  我们有理由相信,随着CSSML的发展和应用,将有助于中文语音合成技术迈向更加成熟和规范的明天。

科大讯飞公司供稿 CTI论坛编辑

相关阅读:

分享到: 收藏

专题