国家863智能计算机成果转化基地央研究院
安徽中科大讯飞信息科技有限公司
一 前言
随着Internet在全世界范围内的爆炸性增长,中国的Internet用户也迅速增加,作为Internet的最重要服务的Email以其快捷、廉价、方便的特点也逐渐成为人们工作、生活中的重要通信方式。据中国互联网络信息中心统计,到1999年底,我国上网用户人数890万左右,其中超过90%的用户使用Email服务。
然而,由于中国计算机普及率和计算机联网率比较低,在实际工作生活中,并不是每一个Email用户都有条件随时随地连上Internet,有的用户因工作流动性比较强,不能及时地读取Email,更谈不上发Email了,这在一定程度上影响了Email的使用效果,尤其在如今的信息时代,人们对信息及时性的要求越来越高,如商务信息、股票信息等,如无法及时获取,会造成巨大损失,这就引发了这样的需求:能否让每一个Email用户在任何时候、任何地点都能方便地收发电子邮件?
基于这种需求背景,E-Voice有声电子邮件系统应运而生。这个系统通过Internet和电话网的互连,以电话为为接收手段,使得用户不但可以在任何地方在第一时间内就能了解到发给自己的Email的内容,而且还可以通过电话在任何地点发送语音邮件.这就很好地解决了上述的需求问题。这无疑是一项具有广阔市场的新业务,并且可以肯定,这项业务将随着Internet的迅速增长而同步扩大。
二 系统设计原则
1.开放性原则:
系统的对外接口全部采用标准协议,模块独立性强,不依赖于某个产品,某项设备;以确保在ISP的电子邮件系统更新换代后系统无需大的变动。
2.可扩充性原则:
系统的整体规划必须一步到位,立足长远发展,使系统有良好的可扩充性。系统容量可以根据实际需要灵活变化,能够进行方便的扩容,且扩容时系统软件体系不需要做任何改动;
3.可移植性原则:
由于网络设备的复杂性,其上运行的操作系统也各不相同,其所用的数据库也各有特色,因此必须保证系统能进行方便的移植。
4.实用性原则:
充分利用现有的成熟技术和设备,在设备选型上,选用性能价格比高的产品。
5.高可靠性原则:
系统中根据各个设备的不同功能和重要程度,分别采用冗余容错等技术,确保系统的长期运行。
6.保密性和安全性原则。
电子邮件可能含有对用户至关重要的信息,因此必须保证数据的一致性、完整性、安全性。通过身份验证机制保证Email不被他人窃取。
三 系统功能概述
E-Voice系统充分发挥了中国电话普及率高的优势,将internet上的Email功能延伸到电话网上,使Email用户即使脱离了计算机,也能通过电话及时地听取最新的邮件或者发送语音邮件。
E-Voice系统通过标准的网络协议,实现了与Internet上的所有电子邮件系统的结合。也就是说,无论是拥有数十万用户的著名网站,还是只有数十名员工的企业的小规模邮件服务器,都可以通过E-Voice系统,就可以向其Email用户(最终用户)提供有声Email服务,这种服务包括以下几个方面:
1.主动呼出通知功能:
2.用户呼入查询功能:
3.用户设置功能
用户的个人设置功能包括以下几个方面:
用户可以在以下场合对个人设置进行更改:
4.多种方式注册功能
本系统应支持以下几种用户注册(开户)方式:
5.系统运行报警功能
系统能够自动进行优化分析,当系统的某些环节出现资源瓶颈后,系统能够自动发出报警,并提出系统扩容建议。可能出现的资源瓶颈主要有:
如果用户邮件数量过大,很可能造成语音卡资源的瓶颈,表现是通知邮件的堆积,且用户无法拨入系统。解决办法是根据统计数据确定呼入呼出电话线的分配,并有一部分动态分配;
如果每个用户占用的空间和用户数量超过设计指标,系统的数据存储空间可能成为系统瓶颈,解决办法是文件服务器的硬盘扩容;
如果用户邮件内容过多,可能造成系统在语音合成上的开销增大,系统的CPU资源可能成为瓶颈,解决办法是增加合成服务器的数量
四 硬件平台说明
1.企业版有声电子邮件系统的硬件配置
对于用户数量在1000以内的电子邮件服务系统(适用于大部分企业),系统的硬件配置是一台通讯节点+中心服务器+IP节点。 通信节点:接收TCP/IP网络上转发来的电子邮件,并进行邮件解析
中心服务器:主要功能有语音合成、数据库维护、系统任务调度三方面。
IP节点:实现用户的电话拨入和新信件通知的电话拨出功能。

2..系统在较大规模下(1~3万用户)的硬件配置
根据不同的用户规模,系统的硬件具体配置有所不同,但总体结构是一致的。也就是说,系统可以根据用户数量的增加动态的、逐步的扩容;
大型的ISP往往拥有数十万用户,其中使用本系统的有声电子邮件服务的可能达到数万,此时系统具有较大规模,各项功能由多台高性能服务器共同提供,硬件平台结构如下图所示:(各种服务器的具体数目由系统的规模有所不同)

1. Email服务器(由ISP维护)
ISP原有的Email服务体系保持不变,本系统不限制Email服务器的操作系统类型。ISP的Email服务器根据Email账号和本系统的用户账号的对应关系,将满足条件的邮件向本系统转发。
2.通讯服务器
主要完成两项功能:
1. 邮件接收处理:邮件接收处理是指接收ISP的Email服务器转发过来的邮件,并对邮件进行分析,解释 ,转化为规范的文本,并提交给数据库模块。
2. 通讯服务器还必须能够同步ISP网页和系统的用户账号数据库的相关信息,用户在ISP的网站上进行注册、属性修改时,向系统发送带有特定标志的邮件,通讯服务器将解释这些邮件,并通知系统数据库进行相应的更新;
3.Web服务器(由ISP维护)
Web服务器由ISP负责维护,主要完成用户注册、个人设置更改等功能。用户登录到此Web上,进行用户注册和个人设置更改,系统自动将用户的账号信息以发邮件的方式提交本系统。
4.数据库服务器
用于存放用户的账号信息、设置信息和邮件信息。能根据其他服务节点的数据库操作请求,对系统数据库作相应的查询和修改操作,并且将操作的结果返回发送请求的节点。
5.IP调度节点
IP调度节点上运行语音资源调度进程,语音资源调度进程接收到数据库进程传来的通知消息后,将其送入任务队列,根据用户设置的呼叫时间设定,在特定的时间段中,当语音资源(IP节点)有空闲的话路通道时,通知该IP节点执行任务队列中的呼叫任务。
6.语音接入节点(IP节点)
语音接入节点是系统与用户之间的接口,实现用户的电话拨入和新信件通知的电话拨出功能。与用户连接后,能播放提示音,指导用户进行操作,响应用户的输入,将邮件的语音文件播放给用户听,允许用户通过电话输入修改设置。 完成语音合成的功能,服务节点需要合成邮件有关信息的时候,向语音合成服务器提出服务申请。语音合成要求能够同时进行30路的合成。
7.系统管理节点
系统管理节点负责系统运行的监控和维护,管理用户的各项信息,以及系统服务的各种统计数据。例如每个用户的服务时长、拨入时间、通道使用情况、网络流量等,根据这些数据的统计信息可以指导业务的经营。
五 系统软件体系结构
1.软件系统框架结构

如上图,系统主要有邮件接收进程, IP调度进程、用户交互(IP)进程,系统监控管理进程,数据库操作进程等几个进程模块。
2.主要进程模块说明
2.1 邮件接收进程
邮件处理进程通过TCP/IP网络与Internet连接,主要实现功能是:
1.负责与Internet上的其它Mail Server交互,接收其传来的邮件消息,起到Mail Server的作用,将接收到的原始信息保存在文本邮件队列中;
2.对接收到的邮件消息头进行预处理,完成对邮件文本的高层次重新编辑,包括:消息头的提取、文本解释、歧义处理、习惯用法的识别等。
2.2 用户交互进程
通过底层语音卡的驱动,完成对用户的输入/输出,包括:呼入呼出、用户按键输入判断,语音文件的播放、录制等。其实现的功能主要是:
1. 允许用户通过电话进行个人设置。包括电话号码/BP的变更,通知服务暂停,通知时段的设定,邮件累积数目的设定,通知服务延时等等。
2. 当语音文件队列不为空时,将队列中语音文件发送给对应的用户,即通过数据库得到用户的电话号码,并发起呼叫,在验证用户身份后将邮件文本合成播放给用户听。用户可以随时转入个人设置流程。 ]
3. 当用户呼入时并选择邮件查询功能时,首先对用户进行身份认证,然后通过数据库模块得到该用户的邮件文本,并将文本转化为清晰连贯的语音,让用户选择收听。同样,用户可以随时转入个人设置流程。
4. 当用户呼入时并选择邮件发送功能时,首先对用户进行身份认证,其次指导用户进行目标邮件地址设置,然后让用户进行电话录音,并将录制的语音文件送入待发送语音文件队列。
2.3 管理员进程
系统管理模块负责系统运行的监视和管理,并对相应的事件作记录,具体功能有以下几点:
1. 系统设置:包括系统的启动参数设置、运行参数设置。
2. 账号管理:账号的增、删、改等等。
3. 系统日志管理:对错误日志的察看、分类、打印等
4. 分析统计各用户的业务量和系统的总业务量,以指导业务的经营。
5. 分析统计各进程模块对资源的占用状况,以便系统管理员对系统资源进行优化配置。
2.4 数据库进程
是系统的通信中枢,负责各模块间的数据传送和动作触发,具体有以下几个方面:
1. 用户账号信息的存取、更新;
2. 用户电子邮件文本的存取、更新;
3. 系统状态的存取、更新
2.5 系统启动进程
系统启动进程的主要功能是作为系统的入口进程,启动进程启动后,将其它功能子进程启动并监视其运行。为了保证系统能够长时间稳定运行,本进程监视其他进程是否正常运行,如果某一进程出现问题,则将重新启动该进程。
六 相关使用流程
1. 用户开户流程

2. 新邮件通知流程

3. 用户查询流程

4. 用户设置流程

七 系统关键技术:语音合成技术
什么是语音合成技术
语音合成(Text To Speech),简称TTS技术,它涉及声学、语言学、数字信号处理技术、多媒体技术等多个学科技术,是中文信息处理领域的一项前沿技术,解决的主要问题就是如何将文本状态的文字信息转化为可闻的声音信息。通俗地说,就是让你的电脑"会说话",或者说,给计算机安装一个"人工嘴巴"。 这样,有些只能用眼睛看的文字信息,现在也可以用耳朵来听。 这项技术以其巨大的市场潜力和实用意义,一直受到各国科学界的广泛关注。世界上许多发达国家都为此建立了国家资助项目,如美国的DARPA计划、欧洲共同体的ESPRIT计划、日本的高级口语接口国家项目等。
语音合成技术在有声电子邮件系统中的作用
语音合成技术是有声电子邮件系统的核心技术,因特网上的电子邮件,其信息的主要载体是文字,只有通过语音合成技术,才能够将这些文字信息转化为电话可以听到的语音信息。一些采用语音压缩、录音方式来实现有声电子邮件的系统,不可避免会出现以下问题:
1, 采用语音压缩的生成的语音邮件相对于文本邮件仍然大了几个数量级,因此语音邮件在传输时占用的带宽资源相对于文本邮件要大得多(采用语音合技术传输的是文本,占用资源很少),而且无法把文本邮件转换为声音;
2, 录音方式虽然可以解决文本转换为声音的问题,但文本信息量大时则及时性无法得到保障,而且费用高、制作周期长,同时信息的保存检索很不方便(采用语音合成技术则只需保存文本,只是在接收终端把文本变为声音)。
e-Voice系统中使用的先进的语音合成技术
E-Voice系统的核心技术是KD系列语音合成技术,这项技术作为国家863项目,是中国科技大学人机语音通信实验室历经十余年研究的重大成果,在1998年国家863办举行的语音合成技术综合评测中,KD-863在自然度、可懂度、音质等主要指标均名列第一,并是唯一被评为"已达到实用化水平"的语音合成技术;在1999年11月18日国家863计划智能计算机主题专家组鉴定会上,KD-2000被评定为在汉语语音合成技术处于国际领先,在实用化方面已走在世界前列。
八 系统软硬件投资成本
一. 系统软件投资
软件投资由基本模块及许可证模块两部分组成
1.基本模块: 10万元,
2.许可证模块:10元/用户
二. 系统硬件投资
系统的硬件投资根据用户规模而定,在不同的规模下,系统
|
||||||||||||||||||||||||||||||
九 市场前景及效益分析
目前全国有超过800万Email用户,而且在爆炸性增长,根据调研,享受该服务,每月向电信多交纳10元服务费,用户是可以接受的,从现有市场开拓速度估算,2000年将有20万用户使用该系统,按现有合同的约定,因科大讯飞公司投入技术应获得增值收入的25%回报。2000年因该系统的开通,电信将多收入2400万元,公司可获利600万元。随着有声Email系统在全国的全面铺开,预计五年后全国将享受有声Email服务的用户至少可以达到400万人,那时的年获利将达1.2亿。
另外,为了适应信息时代的发展需要,有许多企业也迫切需要这样的系统,因为目前许多企业虽然都有自己的Email服务器,但是随着全球经济一体化不断加剧,人员流动性越来越大,员工往往无法及时地收到客户的邮件,而有了"E-Voice"有声电子邮件系统,无论员工身在何处,系统都可以通过拨叫用户的移动电话及时地通知员工有新的邮件,并可以将邮件的详细内容"念"给员工。这种先进的手段将大大提高企业运作效率,缩短客户反应时间。有利于企业在激烈的竞争中立于不败之地。