VoiceServer 2.0产品白皮书
——基于VoiceXML的可编程语音平台
2002/09/29
1. 概述 信息技术革命将人类社会推进到信息社会,企业的经营管理、个人的休闲理财都离不开信息。人们比以前的任何时期都更加渴望能够随时随地得到信息。而语音作为人类最原始、最自然的交流方式,最受人们的青睐。Evans
Group Research对250个使用不同语音系统的用户进行的调查表明, 83%的用户更喜欢使用语音系统而不是按键式系统。
在激烈的市场竞争中,企业、服务提供商一直在寻求完善客户服务的途径。金融、电信等领域实施呼叫中心的成功经验,使企业、服务提供商体会到语音服务带来的经济效益和社会效益。提供更为人性化、智能化的语音服务系统,提供24小时全天候的自助服务系统,已成为企业和服务提供商重要的市场策略。
1.2. 技术基础
近几年来,计算机语音识别(ASR)和语音合成(TTS)技术的突破给语音应用提供了坚实的基础,与此同时VoiceXML的标准化更使语音应用生机勃勃。
语音识别技术是指将人说话的音频信号转换为可被计算机所识别的文字信息,而语音合成技术则是指将文字信息转变为音频信息的技术。事实上,语音识别产品进入大众视野只有短短的4年。1998
年IBM 率先推出ViaVoice引发了语音应用的热潮,研究机构和企业厂家纷纷研制各具特色的语音产品。通过识别算法的改良,同时得益于硬件能力的提高,今天优秀的语音识别系统的识别率高达95%以上,完全能够满足商业应用的需求。而语音合成技术则已经能够实现自然、流畅的文字合成。
VoiceXML 是由IBM 、Lucent、Motorola 和AT&T 四家公司于2000年提出的一种应用于语音浏览的标记语言。如下图所示,VoiceXML是各厂商多年经验积累的产物,VoiceXML
Forum更是得到业界广泛的支持,同时VoiceXML由W3C组织标准化,成为事实上的工业标准。
1.3. 市场机遇
语音应用市场的构成如下图所示:
3.3.1. 语音识别
可选功能。
系统支持语音识别功能,并且系统能同时支持语音输入和DTMF键输入。
3.3.2. 语音合成
可选功能。
系统支持语音合成功能,支持中文普通话、中文粤语、英语等。语音菜单、语音提示均可以通过语音合成后播放。
3.3.3. 收发传真
可选功能。
系统支持传真功能,用户可以通过该系统接收、发送TIFF文件。
3.3.4. 呼入排队
可选功能。
系统支持按话务员组、技能组等路由的呼入排队功能。
3.3.5. 电话呼出
可选功能。
系统支持呼出功能,其呼出任务管理系统支持呼出的重试、超时等功能。
5基于VoiceXML的可编程语音平台
3.3.6. 呼叫转移
可选功能。
系统支持呼叫转移功能,提供呼叫转移、电话会议等功能。
3.3.7. 录制语音
基本功能。
系统支持录音功能,录音内容可以回放、保存等。
3.3.8. 播放语音
基本功能。
系统可以播放预先录制的语音文件,支持的语音文件格式包括PCM linear、PCM a-law,、PCM u-law、ADPCM等。
3.3.9. 接收按键
基本功能。
系统可以接收用户可以通过DTMF键输入的信息或选择的菜单。
3.3.10. 业务详单
基本功能。
系统产生XML格式的详细话单供帐务系统处理。
3.3.11. Javascript
基本功能。
系统支持在VoiceXML中的javascript及标准的Session变量,支持的预定义类型包括数字等。
3.3.12. 流程控制
基本功能。
系统提供javascript实现的VoiceXML流程控制模板,以提供编写结构化VoiceXML的方式。
3.3.13. 业务组件
可选功能。
系统支持在VoiceXML中使用客户定制的业务组件。
3.3.14. 平台管理
基本功能。
系统提供平台管理系统,提供业务统计、业务监控功能。
3.4. 系统结构
3.4.1. 系统结构图
3.4.2. 语音浏览器
VoiceXML 语音浏览器(Voice Browser)是系统的控制中心,包括VoiceXML解析和会话控制两部分。其中,VoiceXML
解析部分功能如下:
3.4.4. 服务提供层
服务提供层(Service Provider Layer)实现服务适配层的接口。系统目前提供的服务提供者包括:
3.4.5. 应用服务器
应用服务器(Application Server)用于存放或产生VoiceXML脚本,可以是文件系统或Web服务器。一般的,文件系统应用于静态脚本,Web
服务器应用于动态脚本。对于动态脚本,ASP、JSP、PHP等任何用于动态产生HTML脚本的技术均适用于VoiceXML。对于动态脚本,应用服务器还负责与后台业务逻辑服务器接口。
3.4.6. 业务访问层
业务访问层(Business Access Layer)用于访问企业、服务提供商的后台业务逻辑,系统支持服务器端和客户端两种方式。
服务器端方式一般用于动态VoiceXML脚本,在ASP/JSP/PHP中访问后台业务逻辑,并根据业务操作结果向语音浏览器返回VoiceXML脚本。
客户端方式利用VoiceXML<object>的标记,在语音浏览器中执行业务操作。系统支持将DLL、COM/COM+组件、JavaBean、xml/http等作为<object>访问后台业务逻辑。
3.4.7. 操作、管理和维护(OA&M)
操作管理维护终端提供业务监控、业务管理和业务统计功能。
8基于VoiceXML的可编程语音平台
4. 语音应用
VoiceServer具有广泛的应用前景,可以应用于:
信息查询
自助服务
通知服务
消息服务。
部分应用举例如下表所示:
声软科技公司供稿 CTI论坛编辑
Voicesoft VAS虚拟前台系统 2005-09-30 |
上海声软 VS MsgCOM短消息通信平台 2005-09-16 |
上海声软 VSFax企业传真服务器 2005-09-06 |
基于VoiceXML的商用开放式语音平台OpenIVR 2005-05-13 |
电话用户与Web对话的桥梁——VoiceXML语言 2005-05-09 |