首页>>厂商>>语音识别与合成>> 捷通华声

捷通华声语音网站解决方案

2001/11/16

1.1 背景和现状

随着互联网的发展,网络的硬件设备的容量和技术水平在不断提高,网络带宽正在持续快速增长和放大;在软件方面,流媒体、语音合成等技术也日臻成熟。互联网硬件水平和软件技术的相互作用,为语音、图形图象、动态影像等大容量数据在互联网上的传送提供了可能。

近年来,一些语音网站纷纷开通,其中比较著名是2000年4月18日在英国诞生的全球首位互联网虚拟主持人:安娜诺娃(Ananova,www.ananova.com)。从技术角度分析,安娜诺娃的实现,基于三项主要的技术,即数字动画技术、语音合成技术和流媒体技术。数字动画技术可以为安娜诺娃创建人类的表情,语音合成技术可以将新闻的内容合成为人类的语言,流媒体技术可以使用户在线收看、收听安娜诺娃所播报的新闻。

在中国,也先后出现了类似的网站,诸如香港一家电视台的“Icy”, 51Go网站的“GoGirl”和天津电视台的“言东方”等等。

但是,以上这些以汉语为信息载体的虚拟主持人(语音网站)或者没有实现语音方式,或者声音全部是用人工提前录音的方式录制的,没有实现用计算机进行实时动态合成。

1.2 捷通华声语音网站方案解决的技术问题

1.3解决方案之一:jTTS—Service语音服务器方案

语音服务器-IIS服务器-浏览器

语音服务器方案是指利用捷通华声在CTI领域成熟应用的jTTS Service语音服务器,增加一台或多台语音服务器到现有的IIS服务系统的网络环境中;在IIS服务器中,增加访问语音服务器的功能。当IIS服务器需要流媒体输出时,向语音服务器发出请求,语音服务器接受IIS服务器的请求,并对请求的数据进行合成、格式转换,得到流媒体后返回给IIS服务器,IIS服务器再将此流媒体传输给用户。

(1) jTTS Service

(2)ASP(用于响应Web页面请求、播放的脚本程序、ASP程序)

在本方案中,语音服务器是构建语音网站的后台。jTTS Service将处于监听某一TCP/IP端口状态,响应来自IIS服务器的多用户请求。而IIS服务器则增加通过TCP/IP请求服务器和接受服务器返回数据的程序,来完成流媒体获得的功能。

浏览器端(Explorer)发出浏览请求,网站服务器(IIS)根据请求查找流媒体(音频流)文件,如有,则将流媒体返回客户端,并启动客户端的MS media player播放流媒体。若没有,则向语音服务器(jTTS Service)发出合成请求,并将所需合成的文本通过Socket接口传送至语音服务器;语音服务器响应网站服务器的合成请求后,将调用jTTS合成技术进行语音合成,并调用WMF SDK将生成的音频文件转换成流媒体格式ASF;通过Socket接口返回IIS服务器端后,将此流媒体文件存储到指定的Web目录,同时将流媒体返回浏览器端,启动MS media player播放。其流程如下:

 

(1)可实现语音服务器的分布式工作方式,对客户端的请求自动调度,平衡负载,以达到更高的性能。

(2)适用于访问量大(同时60线程及以上并发合成)的门户网站或提供虚拟主机的IDC、ASP。

(3) 对现有的IIS服务系统不产生影响,也无需硬件升级,只需在IIS服务器上安装客户端软件。

(4)投入少、实现简单,只需增加一台或多台语音服务器(视服务量大小,建议配置:PIII550 128M 10G以上)到现有的IIS服务系统的网络环境中。

1.服务器端

语音服务器:

(1)一台或多台语音服务器(视服务量大小建议配置:PIII550 128M 10G以上)。

(2)NT4.0、SP4及以上、WMF SDK4.0及以上或Windows 2000、WMF SDK4.0及以上。

(3)jTTS Service(捷通华声TTS服务器)服务器端软件。

IIS服务器:

(1)jTTS Service (捷通华声TTS服务器)客户端软件。

2.Web页面端

(1)加入传播参数的脚本,加入调用播放器的脚本文件(mediaplayer.asp)。

(2)加入播放参数(播放文件标志、播放引擎)。

1.4解决方案之二:jTTS-Web Service Pack语音网站服务包方案

语音网站服务包+IIS服务器-浏览器

与语音服务器方案不同的是,语音网站服务包方案不添加语音服务器,而是在IIS服务器中安装捷通华声语音网站服务包,从而构成集网站服务器(IIS)、语音服务器(TTS)于一身的语音网站服务器。其工作方式与语音服务器方案大致相同。当IIS服务器响应浏览器请求需要流媒体输出时,通过内部COM控件向底层的jTTS发出请求,jTTS依据COM所传递的参数,对请求的数据进行合成、格式转换后,直接将此流媒体传输给客户端的浏览器。

 

(1)COM控件(TTSPlayer.dll,用于链接Web脚本和TTS合成引擎jTTS_ma.dll的动态链接程序)

(2)jTTS SDK

在语音网站服务器中,语音服务器位于系统的底层,其作用是响应来自IIS服务器的请求服务,来完成流媒体的生成。

浏览器端(Explorer)发出浏览请求时,加在Web页面的服务器端ASP程序和脚本程序自动响应,根据请求查找流媒体(音频流)文件,如有,则将流媒体返回客户端,并启动客户端的MS media player播放流媒体。若没有,则向通过COM控件(TTSPlayer.dll)的传递函数向COM传递参数,并发送合成请求;COM控件根据参数和请求调用捷通华声语音合成系统jTTS(jTTS_ma.dll)生成Wave格式的音频文件,并返回给COM控件;COM控件得到之后再调用WMF SDK将所生成的音频文件转换成流媒体格式ASF,在保存到指定目录后开始将此流媒体返回客户端,启动MS media player播放。其流程如下:

(1)投入少,实现简单,不需增加任何硬件设备,性价比高。

(2)适用于访问量不大(同时60线程左右并发合成)的企业、机关及各类网站或提供虚拟主机服务的IDC、ASP。

(3)对现有的IIS服务系统影响小,需在IIS服务器上安装jTTS-Web Service Pack软件。

 

 

1.服务器端

对IIS服务器的要求是SP4及以上,增加以下组件

jTTS SDK2.1、添加并注册COM控件(TTSPlayer.dll)、WMF SDK4.0及以上。

2.Web页面端

(1)加入传播参数的脚本,加入调用播放器的脚本文件(mediaplayer.asp)。

(2) 加入播放参数(播放文件标志、播放引擎)。

 

捷通华声供稿 CTI论坛编辑



相关链接:
捷通华声发布jASR5.5 ASR价格面前将无怯步 2008-04-16
捷通华声TTS成功登陆中国邮政储蓄银行 2008-04-03
捷通华声 jTTS 5.5 全面支持 MRCPv2标准 2008-03-31
捷通华声移动导航HCI解决方案广受青睐 2008-03-26
身边的“智能”生活 2007-12-28