中文普通话语音合成技术的应用_语音合成

中文普通话语音合成技术的应用

捷通华声

中文普通话语音合成技术是指中文TTS（Text-to-Speech）技术，其主要功能是利用计算机将任意文本转换成语音，并通过声卡等多媒体设备进行声音的输出。

语音技术是世界各国研究的热点之一，如IBM、APPLE、AT&T、SIEMENS等国际知名电子和计算机公司都有此方面的研究，我国的中文TTS技术研究开始于20世纪80年代的中科院声学所，随后社科院、清华大学、中国科技大学等多家科研机构开展了中文TTS技术的研究。

我公司采用TTS技术的研究最早开始于20世纪80年代的中后期，其文语转换系统的基本结构：

语言学处理

语言学处理在文语转换系统中起着重要的作用，他主要是模拟人对自然语言的理解过程，使计算机对输入的文本能完全理解并给出后两部分所需要的各种发音提示，完成此项处理的几个步骤如下：

1.文本规整:将文本中的数字串、缩略语、外来语、及各种符号等转换成相应的读音并根据标点符号将句子划分为小段。

2.词的切分:此步骤直接影响合成语音的自然度，其主要功能是区分文本中词的边界。本系统的词切分采用“从左到右最大匹配”方法，对于可能产生歧义切分的地方进行专门的处理。如对“出差错过机会”进行分词时，“出差”是个词，“差错”是个词，“错过”也是一个词，在第一次切分时将他们切分成一个整体，即“出差错过”，然后对该整体从后向前进行最大匹配分词，首先分出“错过”，剩下的“出差”也是一个词，经过这样处理，大多数的歧义切分可得到正确处理。

3.语法分析和语意分析:分析文本中每个句子的语法结构和语义结构，确定语意中心，句子的重音模式，从而为韵律处理提供必要信息，同时确定汉语多音字的发音。

韵律处理

韵律处理的目的是为合成语音规划出音段特征，如音高、音长和音强等，使合成语音能正确表达语意，听起来更加自然悦耳。

声学处理

声学处理的主要功能是根据前两部分处理结果的要求输出语音，即合成语音。

技术应用

我公司的TTS技术以KX-PSOLA实验室原形为基础，并加入了音库压缩、音色转换等算法，而形成的中文普通话语音合成系统，目前此系统的应用主要在以下几个方面：

1.电子文档的有声输出（录易汉语智能输入输出系统、语音伴侣系统）。

2.信息电话查询系统（目前公司处于产品研发过程中）。

3.TTS技术向嵌入式操作系统的移植，如在掌上电脑上实现任意组合文字的阅读功能（目前公司对此项产品的开发已完成）。

以上几方面只是目前我公司开发成功或正处于研发过程中的一些TTS的应用，捷通公司对于TTS的应用和研发的基本工作流程图如下所示：