首页>>厂商>>系统集成及应用软件开发商>>上海声软技术(Voicesoft)

VoiceServer 2.0产品白皮书
——基于VoiceXML的可编程语音平台

2002/09/29

1. 概述

1.1. 市场需求

  据权威机构预测,到2005年全球语音应用产值将达到450亿美元。语音应用之所以成为新一轮的市场焦点,是因为:

  电话尤其是移动电话的日益普及
  人们更需要及时、方便地得到信息
  企业、服务提供商需要提供更完善的语音服务。

  悠久的历史使电话无疑是最普及的通讯工具,其操作简易性更是老少皆宜。如下图所示,尽管互联网方兴未艾,然而在全球范围内,电话用户的数量仍数倍于互联网用户,在中国更是达到10倍以上。特别是,近年来移动通讯发展迅猛,移动电话的销售量已超过汽车和PC 机的总和,预计2003年末全球移动用户数将突破10亿。

  信息技术革命将人类社会推进到信息社会,企业的经营管理、个人的休闲理财都离不开信息。人们比以前的任何时期都更加渴望能够随时随地得到信息。而语音作为人类最原始、最自然的交流方式,最受人们的青睐。Evans Group Research对250个使用不同语音系统的用户进行的调查表明, 83%的用户更喜欢使用语音系统而不是按键式系统。

  在激烈的市场竞争中,企业、服务提供商一直在寻求完善客户服务的途径。金融、电信等领域实施呼叫中心的成功经验,使企业、服务提供商体会到语音服务带来的经济效益和社会效益。提供更为人性化、智能化的语音服务系统,提供24小时全天候的自助服务系统,已成为企业和服务提供商重要的市场策略。

1.2. 技术基础

  近几年来,计算机语音识别(ASR)和语音合成(TTS)技术的突破给语音应用提供了坚实的基础,与此同时VoiceXML的标准化更使语音应用生机勃勃。

  语音识别技术是指将人说话的音频信号转换为可被计算机所识别的文字信息,而语音合成技术则是指将文字信息转变为音频信息的技术。事实上,语音识别产品进入大众视野只有短短的4年。1998 年IBM 率先推出ViaVoice引发了语音应用的热潮,研究机构和企业厂家纷纷研制各具特色的语音产品。通过识别算法的改良,同时得益于硬件能力的提高,今天优秀的语音识别系统的识别率高达95%以上,完全能够满足商业应用的需求。而语音合成技术则已经能够实现自然、流畅的文字合成。

  VoiceXML 是由IBM 、Lucent、Motorola 和AT&T 四家公司于2000年提出的一种应用于语音浏览的标记语言。如下图所示,VoiceXML是各厂商多年经验积累的产物,VoiceXML Forum更是得到业界广泛的支持,同时VoiceXML由W3C组织标准化,成为事实上的工业标准。



1.3. 市场机遇

语音应用市场的构成如下图所示:


一般地:
1.4. 小结

  电话是人类最普及的通讯工具,语音是人类最自然的交流方式。电话依旧是用户向企业、服务提供商寻求服务的最主要方式之一。

  计算机语音识别、语音合成以及语音浏览技术的涌现,掀起自图形界面之后新一轮的人机界面革命,实现了人类通过对话与计算机进行交互的梦想。人们可以通过电话随时获得最新的信息和体贴的服务。

  企业、服务提供商应该把握市场机遇,使自身在激烈的市场竞争中脱颖而出。

2. VoiceXML的优势

2.1. 对企业用户 2.2. 对服务提供商
2.3. 对软件开发商
  
  • 可以缩短语音应用开发周期。与传统的IVR系统不同,即使在硬件设备尚未就绪的情况下,也可以在集成开发环境中开发、调试业务应用,从而缩短项目进度;据估计,与传统的IVR开发相比,业务流程编码时间可以缩短12倍,而整个项目开发进度可以缩短一半;

  •   
  • 可以降低服务开支。由于传统的IVR系统往往是专用的,专业人员的培训、用户培训等服务性开支较大,而VoiceXML作为国际标准,特别是基于XML和Web等通用技术,服务性开支减少;

  •   
  • 可以减少软件维护、升级的工作量。在整个产品的生命周期中,维护工作将占很大的比例;作为一种脚本语音,VoiceXML的维护工作量大大减少,而且配置管理工作也相对简单,从而从整体上降低了项目管理的复杂度,以节省软件开发成本、提高软件发布效率。


  • 3. VoiceServer

    3.1. 概述
      VoiceServer是公司推出的新一代产品,主要面向运营商、服务提供商及企业用户,提供基于VoiceXML、支持语音识别/合成的语音服务系统。同时作为技术平台提供商,公司提供专业的业务咨询、项目管理、人员培训等综合服务。

      VoiceServer支持与内容服务平台或电子商务平台的集成,向最终用户提供电话服务途径;支持呼入排队、转人工台功能或与现有呼叫中心平台的集成。VoiceServer可以作为服务提供商、企业的语音门户,向最终用户提供7x24小时的个性化自助服务。

    3.2. 产品特点
    3.2.1. 技术领先
    3.2.2. 功能独特
    3.2.3. 开放结构
    3.2.4. 高性能
    3.2.5. 高可靠性
    3.2.6. 管理维护 3.3. 产品功能

    3.3.1. 语音识别

      可选功能。
      系统支持语音识别功能,并且系统能同时支持语音输入和DTMF键输入。

    3.3.2. 语音合成

      可选功能。
      系统支持语音合成功能,支持中文普通话、中文粤语、英语等。语音菜单、语音提示均可以通过语音合成后播放。

    3.3.3. 收发传真

      可选功能。
      系统支持传真功能,用户可以通过该系统接收、发送TIFF文件。

    3.3.4. 呼入排队

      可选功能。
      系统支持按话务员组、技能组等路由的呼入排队功能。

    3.3.5. 电话呼出

      可选功能。
      系统支持呼出功能,其呼出任务管理系统支持呼出的重试、超时等功能。
      5基于VoiceXML的可编程语音平台

    3.3.6. 呼叫转移

      可选功能。
      系统支持呼叫转移功能,提供呼叫转移、电话会议等功能。

    3.3.7. 录制语音

      基本功能。
      系统支持录音功能,录音内容可以回放、保存等。

    3.3.8. 播放语音

      基本功能。
      系统可以播放预先录制的语音文件,支持的语音文件格式包括PCM linear、PCM a-law,、PCM u-law、ADPCM等。

    3.3.9. 接收按键

      基本功能。
      系统可以接收用户可以通过DTMF键输入的信息或选择的菜单。

    3.3.10. 业务详单

      基本功能。
      系统产生XML格式的详细话单供帐务系统处理。

    3.3.11. Javascript

      基本功能。
      系统支持在VoiceXML中的javascript及标准的Session变量,支持的预定义类型包括数字等。

    3.3.12. 流程控制

      基本功能。
      系统提供javascript实现的VoiceXML流程控制模板,以提供编写结构化VoiceXML的方式。

    3.3.13. 业务组件

      可选功能。
      系统支持在VoiceXML中使用客户定制的业务组件。

    3.3.14. 平台管理

      基本功能。
      系统提供平台管理系统,提供业务统计、业务监控功能。

    3.4. 系统结构

    3.4.1. 系统结构图


    3.4.2. 语音浏览器

      VoiceXML 语音浏览器(Voice Browser)是系统的控制中心,包括VoiceXML解析和会话控制两部分。其中,VoiceXML 解析部分功能如下:

    会话控制部分的功能如下:
    3.4.3. 服务适配层

      服务适配层(Service Adaptor Layer)定义服务提供者的接口。通过提供不同的服务提供者,系统可以方便地支持不同的硬件设备,支持不同的第三方语音识别、语音合成引擎。
    系统定义的服务提供者接口包括:


    3.4.4. 服务提供层
      服务提供层(Service Provider Layer)实现服务适配层的接口。系统目前提供的服务提供者包括:


    3.4.5. 应用服务器

      应用服务器(Application Server)用于存放或产生VoiceXML脚本,可以是文件系统或Web服务器。一般的,文件系统应用于静态脚本,Web 服务器应用于动态脚本。对于动态脚本,ASP、JSP、PHP等任何用于动态产生HTML脚本的技术均适用于VoiceXML。对于动态脚本,应用服务器还负责与后台业务逻辑服务器接口。

    3.4.6. 业务访问层

      业务访问层(Business Access Layer)用于访问企业、服务提供商的后台业务逻辑,系统支持服务器端和客户端两种方式。

      服务器端方式一般用于动态VoiceXML脚本,在ASP/JSP/PHP中访问后台业务逻辑,并根据业务操作结果向语音浏览器返回VoiceXML脚本。

      客户端方式利用VoiceXML<object>的标记,在语音浏览器中执行业务操作。系统支持将DLL、COM/COM+组件、JavaBean、xml/http等作为<object>访问后台业务逻辑。

    3.4.7. 操作、管理和维护(OA&M)

      操作管理维护终端提供业务监控、业务管理和业务统计功能。
      8基于VoiceXML的可编程语音平台

    4. 语音应用

      VoiceServer具有广泛的应用前景,可以应用于:
      信息查询
      自助服务
      通知服务
      消息服务。
      部分应用举例如下表所示:


    声软科技公司供稿 CTI论坛编辑

    下载白皮书(PDF格式)



    相关链接:
    Voicesoft VAS虚拟前台系统 2005-09-30
    上海声软 VS MsgCOM短消息通信平台 2005-09-16
    上海声软 VSFax企业传真服务器 2005-09-06
    基于VoiceXML的商用开放式语音平台OpenIVR 2005-05-13
    电话用户与Web对话的桥梁——VoiceXML语言 2005-05-09

    分类信息:  语音合成TTS_与_语音识别ASR     技术_语音合成_解决方案   技术_语音识别_解决方案