首页>>>技术>>>语音应用>>>语音合成(TTS)  语音合成产品

 

解决语音门户

2002/06/17

。。语音合成技术在网站语音门户中的应用可以提供诸如有声电子邮件、语音聊天室、电话购物等服务。在不远的将来,语音门户系统必将成为一个全能的“翻译器”,将无穷的互联网资源通过电话提供给用户,为用户提供全天候、全方位的服务。

语音门户的核心技术

。。语音门户要求系统可以进行动态、海量信息的数据查询以及互联网络上信息的访问,需使用的核心技术有:

。。语音合成技术(TTS):用以将文本信息转换为语音信息提供给用户

。。语音识别技术(ASR):用以取代繁琐的按键输入,使输入更为便捷和人性化。

。。VXML技术:用以IVR平台与互联网络交互信息。(IVR:Interactive Voice Response,交互式语音应答系统。)

。。对于信息服务来说,TTS和ASR的融合意味着两重含义。其一,由于声音更加接近人类的语言,改进后的TTS增强了用户对该技术的认可程度;其二,更加自然的TTS和高质量的语音识别器能让计算机和人们进行真正意义上的对话,这样,计算机就能理解对方(人)说的是什么,并且在自己模糊不清的时候,向对方(人)询问,在交流中明晰客户的需求。

核心技术描述

。。语音合成技术的本质是将文本信息转化为语音信息,是实现人机语音通信,建立一个有听和讲能力的口语系统所必需的关键技术之一。

。。语音门户系统是以先进的CTI技术以及开放的Voice XML工业标准为基础,架构在ChinaNet网上的ICP;通过电话畅游互联网,轻松“听”网上的信息,“说”E-mail,“点击”网上的链接。这是对传统电话信息服务的一个重大改革;因为接入服务和内容服务的分离,电话信息服务行业变成了一个开放式的行业,所有传统的ICP都可以按照Voice XML的标准提供内容服务,而丰富多样的内容又必然会刺激用户的增加以及服务需求的增长。由于引入了VXML相关技术,可将平台的复杂内容屏蔽,无须熟悉底层平台即可进行高层应用开发;大大地减轻了开发的难度,缩短开发周期,降低人力成本。

语音门户的建设

。。在不影响电信运营商现有平台的结构和业务功能的前提下,主要需完成三个功能模块的系统建设。在动态信息和海量信息的查询业务上,首先必须完成的是对原有的数字录音回放方式向TTS平台的升级;进而在进行了TTS改造的平台上构建互联网上的公共信息查询服务和个性化信息查询服务;考虑到实际运用情况,在具体业务方面建设UMS系统,可以基于此业务提供个人定制信息的服务,满足人们对于及时性、个性化越来越高的要求。

。。TTS系统、VXML系统、UMS系统与已有IVR(电话语音自动应答系统)平台、Internet、PSTN结合如图所示。

TTS系统的建设

。。传统的数字录音回放方式需要人工进行录音,新兴的计算机技术“语音合成”,可以运用有限的系统资源将无限的文本信息合成为可听的语音信息,从而可以改进传统的录音回放方式。在不改变现有平台的基础上建立的TTS系统可以在信息服务的信息源提供上带来如下改进:

。。就工作量而言,录音需要大量的人力,在信息量以级数增长的今天,录音往往无法满足信息的供给,而语音合成将绝大多数工作由机器代替,人们只需提供现成的文本信息即可输出声音信息。

。。对于动态的信息,尤其是对实时性要求很高的信息如:股票行情等,如果让录音员录音则至少在半小时后才能对外提供,而语音合成可以实现实时的转换,每分钟可刷新一次。

。。由于信息的高速增长,录音数据存放和查询也存在问题。将信息以文本形式存储在计算机中可节约大量系统资源再结合计算机技术对数据库中的信息进行搜索和整理将输出的结果用语音合成转换成声音,这样就可以解决信息服务中海量信息的存储和查询的问题。

。。录音的信息维护、修改的工作量比较大。而文本信息的维护和修改相对要容易得多,通过语音合成技术只需对文本信息进行修改就可以完成信息内容的更改和维护工作。

VXML系统的建设

。。VXML系统的目的就是为了使电话和语音可以应用在互联网络之上,除为消费者服务外,VXML还支持一些商务应用,如话务中心、银行交易和电子商务。通过VXML技术可以使语音门户系统访问到Internet Web上的各种信息,并实现信息的交互。再结合语音合成技术,将文本信息合成为语音信号,用户就可以通过IVR平台来访问Web页面上的信息了。

。。结合VXML技术,语音系统可以提供更多的个人信息服务:商品交易、金融交易、求职招聘等。相对传统的同类服务,此类服务与Internet信息共享,更为贴近用户和可以面对更广泛的人群。

UMS系统建设

。。统一消息系统(UMS)是一个将各种传播手段整合的系统,结合了各种网络,用户可以使用电话、手机、传真、呼机、数字移动设备和个人电脑等途径与系统交互信息。在语音门户平台中加入UMS系统,将有助于平台提供更多样化的服务,与用户结合更为紧密。

。。UMS 是语音与数据融合的产物,一系列的服务提供商可以通过提供UMS服务来扩展自己的业务范围。UMS服务可以通过统一平台来提供给用户, 也可以由服务提供商将各种信息储存设备集成起来,通过不同途径提供给用户。

。。有声电子邮件(Voice-Mail)系统就是UMS系统的一个具体应用,它通过电话、手机等通信工具可以向用户提供Internet上的E-mail服务。因而人们可以不受设备的限制,随时随地的收发电子邮件,即使身处异地,仍然不会错过E-mail中携带的重要商机。

网络世界


相关链接:
比尔-盖茨能讲中文? 微软语音技术大"探秘" 2002-05-09
语音合成技术: 启动“第三种引擎” 2002-04-02
构建更加人性化的交谈式语音应用 2002-03-11
回归到“通天塔”之前 2002-03-11
语音合成——灿烂的前景 巨大的商机 2002-01-30

分类信息:  语音合成TTS_与_语音识别ASR  语音合成TTS_与_voicexml  语音识别ASR_与_voicexml