首页 > 技术 > 解决方案 > 声讯TTS应用解决方案

声讯TTS应用解决方案

2001-08-29 00:00:00   作者:   来源:   评论:0 点击:


一、语音合成技术及其在声讯台中的应用

1 语音合成简介

语音合成(Text To Speech),简称TTS技术,它涉及声学、语言学、数字信号处理技术、多媒体技术等多个学科技术,是中文信息处理领域的一项前沿技术。解决的主要问题就是如何将文本状态的文字信息转化为可听的声音信息。使以往只能用眼睛看的文字信息,也可以用耳朵来听。通俗地说,就是让电脑开口说话的技术。这项技术在以语音信息服务为主要方式的声讯业务中尤其有应用意义。

2 语音合成技术的优点

语音是信息传播的一大媒介,随着多媒体信息需求的增大,语音服务系统近年来发展较为迅速。下表是语音合成技术和传统录音回放技术在语音服务中相比较的情况。

 

TTS

录音制作

存储空间的要求

较低

较高

节目开发周期

出错可能

信息的更新速度

即时

信息库建立和维护的工作量

  • 就工作量而言,录音需要大量的人力,在信息量以级数增长的今天,录音往往无法满足信息的供给,而语音合成将绝大多数工作由机器代替,人们只需提供现成的文本信息即可输出声音信息。
  • 对于动态的信息,尤其是对实时性要求很高的信息如:股票行情等,如果让录音员录音则至少在半小时后才能对外提供,而语音合成可以实现实时的转换,每分钟可刷新一次。
  • 由于信息的高速增长,录音数据存放和查询也存在问题。将信息以文本形式存储在计算机中可节约大量系统资源再结合计算机技术对数据库中的信息进行搜索和整理将输出的结果用语音合成转换成声音,这样就可以解决信息服务中海量信息的存储和查询的问题。
  • 录音的信息维护、修改的工作量比较大。而文本信息的维护和修改相对要容易的多,通过语音合成技术只需对文本信息进行修改就可以完成信息内容的更改和维护工作。

二、全省节目文本内容联网方案

在声讯台使用TTS技术能实现一种全新的节目联网方式。在实现数据联网情况下,节点声讯台中的一个或者多个制作的节目内容能通过文本的方式在网络上共享;其他的节点声讯台取得这些文本内容,在本地进行语音合成,进而开通相应的节目。从而可以使用少量的带宽来轻松实现信息共享,为各地的用户提供全面的语音服务。

1 集中制作、联网下传方式

单一的节目制作中心一般放置在省中心。在节目制作中心,节目数据以数据库或者文本文件的方式存放于节目数据仓库中。在节目制作中心运行文本访问服务代理,接受各地市台的数据请求并发送相应的数据。各个地市台通过文本请求、接收代理向中心请求或者接收文本数据,存放于本地数据仓库,等待语音合成服务器合成成语音文件,地市台使用合成后的语音文件迅速开通相应的节目。

节目文本数据的共享和消息通知,可以通过两种方式实现,即地市台定时(或人为)向中心请求数据,或者中心数据服务代理向地市台广播数据增加消息,并发送增加的数据。

三、TTS技术应用方案

通过节目文本内容联网,实现节目文本内容的共享,从文本到语音的转换,开通相应的节目则需要语音合成来完成。

科大讯飞针对各地声讯平台不同的建设状况,提出实时合成和离线合成两种解决方案,实现在现有平台上嵌入语音合成功能。

1.离线合成

在用户电话呼入之前生成相应语音文件,每个语音文件可供多个用户重复听取。特点是资源消耗少(普通PC即可实现),硬件要求低,能较好的替代人工录音的语音制作方式。

离线合成可以与省级甚至全国声讯网络结合,开发出灵活的联网业务。即文本访问代理从广域网上取得节目文本数据存放于本地的文本数据共享目录,语音合成服务器通过访问该目录获取节目文本合成为语音文件存放与服务器的语音文件共享目录中。局域网内其他设备(IVR、MSI等等)访问语音文件共享目录,向用户播放最新生成的语音信息。

2.在线合成嵌入方案

在线合成是在用户电话呼入的同时实时生成语音文件,并在该用户呼入的通道播放,每个语音文件仅供该用户听取。

在线合成包含离线合成的一切功能,且实时性好,业务灵活,可以开展出各种个性化信息服务,主要适用于对语音合成的实时性要求高的场合。

声讯平台的TTS升级是在现有平台上增加TTS语音合成服务器,语音节点通过语音合成网关调用TTS资源。语音合成服务器支持多路的实时语音合成,根据系统业务量可以方便地扩容。

由于不涉及到话务接入处理层的内容,声讯台采用前置交换方式还是后置交换方式不对嵌入改造工作的造成影响。

如图所示,一个包含TTS服务的电话访问流程大致可分为七步:

(1)用户电话拨入,系统IVR响应,获得用户按键等信息。

(2)IVR根据用户输入,向数据库或文件等信息源申请数据。

(3)信息源返回文本数据给IVR。

(4)IVR通过其TCP通讯接口将需要合成的文本信息发送给TTS Server。

(5)TTS Server将用户文本合成为语音文件放置在一个共享目录中。

(6)TTS Server通过其TCP通讯接口通知IVR合成完毕,并返回文件名。

(7)IVR播放相应的语音文件给电话用户。

四、TTS技术在声讯台的应用意义

新业务的开发对现有声讯平台提出了更高的技术要求,目前全省声讯平台基本上没有文字语音合成能力,数字合成也停留在单音报读阶段,播放出来的声音生硬、不连续、不自然;而使用语音合成技术合成的语音自然、连续,接近人的发音,用户感觉较亲切,易听懂,可以大幅度提高服务质量和用户满意度。可以说,TTS技术的应用是声讯平台技术升级的当务之急。

TTS技术在声讯台应用后可以直接开发许多新业务,如:

1.海量信息查询类业务

大部分海量信息如考试查分、征婚启事、人才信息、电话广告等,由于其内容庞大,往往无法在短期内完成录音,即使可以事先录音,也需要很长的制作周期,而且在量大的时候肯定会出现人为错误;采用语音合成技术可以节约大量人力,缩短开发周期,而且能够完全保证了所有信息100%正确。

2.动态信息查询类业务

声讯节目逐渐地由现在娱乐型节目为主的节目构成转向以应用型的节目为主,而多数的应用类节目对实时性要求比较高,如证券行情、订票、订房等,上述应用中动态信息不可能事先录音,需要实时地从数据库中读取,动态进行语音合成,保证信息的实时性。

此外,在声讯服务领域内,使用TTS技术不但对技术开发工作来说很重要,而且对于业务运营方面也同样如此。传统的声讯服务领域,信息的组织和维护都是由人工来完成的,需要人工录音、文件拷贝等一系列步骤,工作烦琐,维护不便,很难做到信息的实时更新,影响了服务质量,而且占用存储资源多。

由此可见,TTS技术作为一个新兴技术,可以解决动态信息和海量信息的查询问题,把它应用于声讯领域,对于开展增值业务,改变传统业务的实现方式,提高服务质量都是很必要的。

科大讯飞供稿 CTI论坛编辑

相关阅读:

分享到: 收藏