捷通华声TTS在声讯领域的应用_语音合成

捷通华声TTS在声讯领域的应用

2001/11/08

1.1市场背景

随着信息平台的多样化，传统的声讯服务正在经受着越来越严峻的考验。伴随着互联网的迅速普及，人们对信息更新速度的要求也越来越高。同时，传统的人工声讯以及用人工录音实方式现的自动声讯服务需要很高的日常维护费用，这使得声讯台的运营者不堪重负。而恰恰在此时，北京捷通华声软件技术有限公司的语音合成(Text To Speech)技术实现了飞跃性的突破，从而使真正意义上的自动声讯得以实现。

TTS（Text To Speech）技术就是将计算机中的文本转换为语音的过程，它可以轻而易举地将传统的人工声讯系统转换为自动声讯系统。信息的提供者只需要更新数据库中的文本内容，利用TTS技术，信息的需求者就可以通过电话随时获取最新的信息。与传统的声讯服务相比，自动声讯系统无论是在信息的更新速度、维护成本、操作灵活性上，还是在服务的质量、管理、规范上都有着绝对的优势。因此，随着新一代TTS技术的诞生，自动声讯系统正在以无法阻挡的速度，占领着原有的声讯市场。

1.2技术背景

要想实现真正的自动声讯系统，需要在几个关键部分实现技术突破，只有关键技术达到了产品化的要求，市场运作才成为可能。

第一：任意文本合成

为了使各种各样的文本信息能够及时的转化为语音，TTS技术必须能够做到任意文本合成，也就是说它的音库必须能够适应各个行业语言习惯，只有这样，信息的提供者才能不受局限地为用户提供各种信息。

第二：即时合成

如果事先把文本合成为语音，再存放到服务器中播放给用户，那无疑又回到了原有声讯服务的模式，更新速度及工作量都不能满足要求。因此，TTS技术必须能够做到即时合成，即：当用户向声讯服务器发出信息请求时，声讯服务器做出分析判断，并从内容数据库中提取相应文本，然后发送给语音合成服务器。语音服务器边合成边回传给声讯服务器，进而再传送给用户。整个的合成过程是在用户收听的同时进行的，不能有明显的延迟，也不能在播放的过程中停顿，这就要求TTS技术有相当的稳定性以及非常快的合成速度。

第三：自然语调合成

为什么TTS技术经过数十年地研究，一直都没有得到大规模的实际应用？其主要原因就在于早期的合成语音效果一直没有达到真正自然的阶段，仅达到“可以听懂”的水平。因此，传统的声讯服务系统宁愿花大力气去进行人工录音，也不愿意给用户听一些磕磕绊绊的合成效果，这也正是长期以来制约自动声讯系统发展的一个重要因素。

捷通华声公司2001年7月份推出的TTS核心在合成语音的质量上实现了飞跃，成功地实现了自然语调合成，字词间平滑过度。这标志着自动声讯系统的又一技术壁垒被打破了。

第四：“集群式并发”处理

众所周知，声讯服务的用户数量是相当巨大的，当大量的用户同时向声讯服务器发出信息请求时，我们称之为“集群式并发”。

每台服务器的负载能力是有限的，因此，通常中型以上的声讯系统中都会采用多台声讯服务器及多台语音合成服务器。那么，如何解决好多台服务器之间的负载平衡问题就显得尤为重要。如果不能解决负载问题，在系统实际运行中就会造成某些服务器满负荷运转，而某些服务器则长期空闲，不仅是对资源的浪费，而且会直接影响到整个声讯服务系统的畅通。

捷通华声公司针对这一现象做了专门的研究，并开发出了“动态负载平衡机制”。通过捷通华声的动态负载平衡机制，语音服务器可以动态地分配语音合成请求，使多台服务器的负载相对比较均衡，以确保整个声讯系统保持最佳的运行效果。

捷通华声动态负载平衡机制的成功研制，为大规模自动声讯服务的实现奠定了稳固的技术基础。

1.3技术流程

当用户通过电话向声讯服务器发出请求时，声讯服务器会首先作出分析判断，然后从内容数据库中提取相应的文本信息，经过负载平衡机制发送给语音合成服务器。语音合成服务器在接收到文本后立刻开始合成，同时将合成好的语音发送回语音服务器，再由语音服务器回传给用户。其中内容数据库中的信息可以由系统管理员定期进行维护管理。（系统连接结构见流程图）

1.4配置要求

1.语音服务器配置：单CPU——PIII 800；内存256M或更高（具体数量根据声讯系统规模而定）
2.软件需求：操作系统、jTTS系统、捷通华声动态负载平衡机制

　捷通华声TTS在声讯领域的应用（流程图）

捷通华声供稿 CTI论坛编辑