首页>>厂商>>语音识别与合成>>科大讯飞

科大讯飞语音门户系统解决方案

2002/04/01

一、语音门户系统概述

  互联网是包罗万象的,这不仅仅是表现在内容上,也应该表现在其形式多样、语种繁多。语音合成技术在网站语音门户中的应用可以提供诸如有声电子邮件、、语音聊天室、电话购物等服务。在不远的将来,语音门户系统必将成为一个全能的“翻译器”,将无穷的互联网资源通过电话提供给用户,为用户提供全天候、全方位的服务。如果说因特网的确充满了无数商机的话,那么,语音接入服务的前景听起来的确令人垂涎,因为对于任何用户来讲,拨个电话仅是举手之劳的事。

  中国第一代语音门户--TOM公司的TOM Voice即是一个概念性的样例,它结合了语音识别和语音合成,用户只需要拨打热线电话,就会得到股票、航班、酒店、天气等信息,还可以通过电话订餐和叫出租车等等。而注册用户则可以根据预先设定的条件通过电话收听电子邮件、搜索联系人、确定日程安排等等。

  如果语音门户能够很快的成熟应用起来,必然会在很大程度上给人们的工作生活带来便利,同时也会对众多的ISP、ICP带来新的发展和机遇。

1、市场机遇分析

1.1 互联网信息的爆炸性增长

  近年来,全球范围内Internet出现了爆炸性的增长,它越来越强的渗透到人类传统生产生活的各个方面,在极大的提高全社会的运作效率的同时,自身也在使用成本、可用性、易操作性等方面不断进步。据中国互联网中心年初的调查报告,目前有约2000万人使用互联网,而其中80%以上的用户使用互联网主要的目的就是获取信息。随着互联网信息的爆炸性增长人们对于信息的需求也有了越来越高的要求:

  在信息的获取手段上,电话、传真、计算机、PDA等各种多媒体信息终端竞相发挥着自己的优势,但同时人们更希望能够不受任何时间、空间以及设备的限制更自由的获取信息;随着工作与生活节奏的加快,使信息的时效性尤为凸显,股市行情、价格动态、促销信息等等动态信息为信息供求双方带来巨大的经济效益,而来自于计算机网络和数据库中的信息,利用先进的计算机技术进行搜索和整理之后为人们提供的信息在市场全球化趋势下显得更为重要;互联网为用户提供了丰富多彩的个性化服务、交互式服务,电子商务的发展使企业与企业之间、企业与用户之间的沟通更为密切、更为深入,越来越多的人需要定制服务的类型和内容,来满足不同人的要求。

1.2 互联网应用的发展趋势

  正像上面所描述的,在当今飞速发展的信息社会,“移动”与“互联”已经成为不可阻挡的潮流,越来越多的人们要通过网络来优化自己的生活,随时随地获取信息并进行基于电子商务平台的交易。Internet的蓬勃发展和迅速普及已逐渐使很多人把从网上获取信息和通过网络实现电子商务,视作日常生活中的一部分。

  然而,人们通过计算机上网的同时,也越来感到这种方式受到时间、地点等诸多因素限制,很难做到信息的及时获取,人们希望通过随处可见的电话得到自己所需要的信息。如果采用雇佣话务员提供信息服务的方式,不仅成本昂贵,而且由于工作繁重容易导致接听人员服务水平下降。而通过传统的自动声讯服务方式,虽然也可以获取一些信息,但是由于电话机按键的限制,许多具体的应用不是难以实现。

  由于以上原因,人们越来越希望可以通过电话设备实现快速便捷的交流,即通过电话接入网络并操纵远程的信息源,以得到信息或进行电子化交易。交谈式语言是人类最自然的交流方式,通过语音浏览和接入互联网,也一直是人类的追求目标。采用语音接入不仅方便快捷,而且,这种语音技术将令使用者无论在何时、身处何地,都可以利用手中的电话装置,就能轻松接入网络,得到所需信息或购买商品及服务。

  另外不容忽视的一点是中国的互联网发展现状,由于地区的差异和经济水平的限制,我国上网的企业和个人半数以上分布于沿海发达城市,对于大多数普通百姓而言,计算机应用水平仍然很低,而主动使用计算机上网获取信息的意识更有待加强。因此让互联网络带来的便利服务于寻常百姓家就存在着各种各样的障碍。而公用电话网(PSTN)经过这些年的发展,电话终端的普及率已经达到了相当的水平,目前我国的电话网络用户超过二亿以上。相比之下使用电话获取信息更符合我国目前的信息发展现状。

  语音门户(Voice Portal)的出现,正满足了人们这些需要,为互联网诠释出全新的涵义。

1.3 发展趋势与现存矛盾创造的市场机遇

  信息的爆炸性增长、互联网服务的不断提升所带来的强调“快速”、“移动”、“互联”的发展趋势,以及计算机网络设施和应用水平的限制所造成的应用矛盾。语音门户运用电话服务方式所具有的广泛的普及性和使用的方便性等特点,为我国的信息服务业的发展提供了一个难得的市场机遇。

  因而语音门户工程已经被国内的电信运营商列入增值服务的计划之中,如移动的梦网工程。AT&T Wireless公司也在日前宣布,提供语音门户站点,让客户利用语音命令冲浪无线Web,提供这类服务的运营商正日益增多。

2、方案中的核心技术

  语音门户要求系统可以进行动态、海量信息的数据查询以及互联网络上信息的访问,需使用的核心技术有:

  1)语音合成技术(TTS):用以将文本信息转换为语音信息提供给用户

  2)语音识别技术(ASR):用以取代繁琐的按键输入,使输入更为便捷和人性化。

  3)VXML技术:用以IVR平台与互联网络交互信息。(IVR:Interactive Voice Response,交互式语音应答系统。)

  对于信息服务来说,TTS和ASR的融合意味着两重含义。其一,由于声音更加接近人类的语言,改进后的TTS增强了用户对该技术的认可程度;其二,更加自然的TTS和高质量的语音识别器能让计算机和人们进行真正意义上的对话,这样,计算机就能理解对方(人)说的什么,并且在自己模糊不清的时候,向对方(人)询问,在交流中明晰客户的需求。

2.1 核心技术描述

  2.1.1语音合成技术

  语音合成技术的本质是将文本信息转化为语音信息,是实现人机语音通信,建立一个有听和讲能力的口语系统所必需的关键技术之一。

  在信息爆炸式增长的现代社会,信息有两个很显著的特征:信息量大、信息变化快。但是对于电话信息服务系统来说,它与客户之间的“界面” 主要是语音,如何用语音来传递这些海量和动态的信息,这就是必须用到语音合成技术。

  传统的预录音方式,需要人工将这些信息以录音的方式预先存放好,其漫长的制作周期和繁重的工作量,显然已经越来越显得力不从心。而语音合成技术(TEXT TO SPEECH),能够将各种文字信息转化成连续的语音,是电话信息服务系统成为提供高质量、智能化的语音服务的关键技术,可以预见,语音合成技术在电话信息服务行业中将会有非常广阔的应用前景。

  2.1.2语音识别技术

  语言是人类进行信息交流的最主要、最常用、最直接的方式。语音识别技术是实现人-机对话的一项重大突破,在国外近年来发展十分迅速,其应用也逐步得到推广。

  传统电话服务从事服务性行业的公司通过大量客户服务员为客户翻查和处理所需资料,答复客户所需的资讯,但是长期聘用和培训大量这些客户服务员,成本大幅上升,并且容易造成人为的失误,严重地影响到企业的服务质量和形象。近几年逐渐普及的电话自动应答(IVR)处理了不少简单而又重复的咨询工作,节省生了不少人力,但这种按键式的语音自动应答系统却让客户花费很多时间选择按所需目录指引来完成的简单查询,令用户倍感烦恼。“语音识别”无疑可解决该方面的问题。

  语音识别系统的开发成功,充分发挥计算机技术和网络技术的优势,采用先进的人-机语言对话方式,摆脱电话按键的束缚,人们只要像平常一样对着电话简单地说出所需服务项目即可轻松获取自动系统提供的所需信息。

  2.1.3VXML技术

  AT&T,朗讯,摩托罗拉与其他17家公司于1999年联合推出语音扩展语言论坛(VXML),用以拟定一项标准,此标准能够将语音、电话用于因特网。除为消费者服务外,VXML还支持一些商务应用,如话务中心、银行交易和电子商务。

  其他方面的应用包括:因特网用户核对电子邮件,获得天气预报、股市行情和其他来自电话线的在线数据。用户也可编写自己的VXML应用。AT&T,朗讯,摩托罗拉一直都在致力于VXML的不同版本,但基本途径相同。最终目标是产生统一的标准。

  语音门户系统是以先进的CTI技术以及开放的Voice XML工业标准为基础,架构在CHINANET网上的ICP;通过电话畅游互联网,轻松“听”网上的信息,“说”E-mail,“点击”网上的链接。这是对传统电话信息服务的一个重大改革;因为接入服务和内容服务的分离,电话信息服务行业变成了一个开放式的行业,所有传统的ICP都可以按照Voice XML的标准为提供内容服务,而丰富多样的内容又必然会刺激用户的增加以及服务需求的增长。由于引入了VXML相关技术,可将平台的复杂内容屏蔽,无须熟悉底层平台即可进行高层应用开发;大大的减轻的开发的难度,缩短开发周期,降低人力成本。

2.2 讯飞在核心技术上的优势

  讯飞公司是国内唯一以语音为产业化方向的863成果产业化基地。讯飞汉语语音合成技术,是在国家863项目、九五攻关项目、国家自然科学基金项目、以及中国科学院八五重大项目的支持下,历经十余年拼搏成为国内外同类技术中脱颖而出的"领头羊"。

  讯飞InterPhonic C&E Rev 1.0语音平台是讯飞公司基于多语种合成技术推出的智能化合成系统,能够解决在中文和英文混合出现在文本中的情况。通过这个系统,不论在合成信息中是包含中文、英文或者是中英文混读的情况,都能保证合成语音连续、可懂、自然,相当于普通人说话标准。而且针对大吞吐量的、高性能的、稳定的高端应用而开发,提供基于TCP/IP网络的集群式语音合成服务,语音合成服务采用动态负载均衡机制对任务进行动态调度,很好地解决了现代信息社会海量数据和动态查询的需求,满足电信及大型企业级的CTI应用的要求。

  随着讯飞公司的成长,讯飞已经在CTI平台领域、呼叫中心领域、系统集成行业、语音板卡领域拥有众多的开发伙伴。

  在语音识别方面,讯飞是中文语音识别标准化工作组成员单位,历届863语音识别唯一指定评测单位以及国家863语音识别数据库提供单位。而在业界语音技术规范制定过程中,讯飞作为唯一的企业代表,与科技部、技术监督局、信标委共同制定中国中文语音技术标准接口。同时讯飞也是国家S863项目中文信息发展规划的起草单位和国内权威的语音标准制定组织中国中文语音创业联盟的发起者与组织者。

  目前讯飞还是美国Nuance(基于电话信道的语音识别产品销售额、市场占有率均为全球第一)公司语音识别产品在中国的独家代理。

  在VXML方面,讯飞成功的开发出Voice VXML Server,可在P III 500上同时支持120并发访问。另一方面,讯飞也是VXML的权威组织“VXML论坛”的成员之一。

3、语音门户系统的建设

  考虑到在实际应用中,由ISP、ICP或者电信运营商独力建设语音门户系统不能充分利用现有资源、发挥各自的优势,所以建议语音门户系统的建设构架于电信运营商现有的电话接入平台之上,而服务内容则寻求与主要ISP、ICP进行合作提供。

  在不影响电信运营商现有平台的结构和业务功能的前提下,主要需完成三个功能模块的系统建设。在动态信息和海量信息的查询业务上,首先必须完成的是对原有的数字录音回放方式向TTS平台的升级;进而在进行了TTS改造的平台上构建互联网上的公共信息查询服务和个性化信息查询服务;考虑到实际运用情况,在具体业务方面建设UMS系统,可以基于此业务提供个人定制信息的服务,满足人们对于及时性、个性化越来越高的要求。

3.1 TTS系统的建设

  传统的数字录音回放方式需要人工进行录音,新兴的计算机技术“语音合成”,可以运用有限的系统资源将无限的文本信息合成为可听的语音信息,从而可以改进传统的录音回放方式。在不改变现有平台的基础上建立的TTS系统可以在信息服务的信息源提供上带来如下改进:

  1.就工作量而言,录音需要大量的人力,在信息量以级数增长的今天,录音往往无法满足信息的供给,而语音合成将绝大多数工作由机器代替,人们只需提供现成的文本信息即可输出声音信息。

  2.对于动态的信息,尤其是对实时性要求很高的信息如:股票行情等,如果让录音员录音则至少在半小时后才能对外提供,而语音合成可以实现实时的转换,每分钟可刷新一次。

  3.由于信息的高速增长,录音数据存放和查询也存在问题。将信息以文本形式存储在计算机中可节约大量系统资源再结合计算机技术对数据库中的信息进行搜索和整理将输出的结果用语音合成转换成声音,这样就可以解决信息服务中海量信息的存储和查询的问题。

  4.录音的信息维护、修改的工作量比较大。而文本信息的维护和修改相对要容易的多,通过语音合成技术只需对文本信息进行修改就可以完成信息内容的更改和维护工作。

3.2 VXML系统的建设

  互联网络是目前信息的一个最重要的载体,在互联网迅速普及并不断发展的今天,大量的公共信息可以在网络上查询得到。越来越多的信息服务商和个人在网络上提供信息,同时越来越多的人群正在享受网络所带来的便利。

  电信运营商自身拥有强大的信息制作能力,但充分利用好互联网络丰富的资源,以适应信息时代用户的需求,这就需要整合多方的资源,是一项重要的工作。

  VXML系统的目的就是为了使电话和语音可以应用在互联网络之上,除为消费者服务外,VXML还支持一些商务应用,如话务中心、银行交易和电子商务。通过VXML技术可以使语音门户系统访问到Internet Web上的各种信息,并实现信息的交互。再结合语音合成技术,将文本信息合成为语音信号,用户就可以通过IVR平台来访问Web页面上的信息了。

  结合VXML技术,语音么努系统可以提供更多的个人信息服务:包括商品交易、金融交易、求职招聘等。相对传统的同类服务,此类服务与Internet信息共享,更为贴近用户和可以面对更广泛的人群。

3.3 UMS系统建设

  统一消息系统(UMS)是一个将各种传播手段整合的系统,结合了各种网络,用户可以使用电话、手机、传真、呼机、数字移动设备和个人电脑等途径与系统交互信息。在语音门户平台中加入UMS系统,将有助于平台提供更多样化的服务,与用户结合更为紧密。

  UMS 是语音与数据融合的产物,一系列的服务提供商可以通过提供UMS服务来扩展自己的业务范围。UMS服务可以通过统一平台来提供给用户, 也可以由服务提供商将各种信息储存设备集成起来,通过不同途径提供给用户。

  有声电子邮件(Voice-Mail)系统就是UMS系统的一个具体应用,它通过电话、手机等通信工具可以向用户提供Internet上的E-mail服务。因而人们可以不受设备的限制,随时随地的收发电子邮件,即使身处异地,仍然不会错过E-mail中携带动重要商机。

4、语音门户系统业务介绍

  通过以上三个系统的建设,电信运营商与ISP、ICP将可以将各自有优势的资源整合起来,为广大用户提供更多更好的服务。使用户可以了解到网上的各种信息,如金融股票信息、体育快讯、天气预报、交通情况查询、防伪查询、新闻点播、有声邮件等等。整个系统更易于开展新种类的业务,更易于维护,资源占用更少。

  从业务开发模式划分可以将其分成两个类别,海量动态信息查询和互联网信息查询。海量动态信息查询业务主要是针对互联网上信息量大、更新快的特点,语音门户系统将从互联网上查询到的信息源传送至TTS系统,然后通过TTS Server提供的TTS服务返回语音数据文件播放给用户;互联网信息查询业务将互联网络与电话公众网结合,从而使用户可以通过普及便利的电话、手机、传真等方式获取互联网上丰富的信息。

4.1 海量动态信息查询

  海量动态信息的查询主要有:证券金融信息、法律法规、政府公告、交通、运输、路况信息、旅游信息、考试信息等的查询。这类信息的特点有两个:

  讯飞与一些地市160/168声讯台合作推出的为个人和机构投资者提供有关金融信息声讯服务的系统就是一个典型的应用。这项业务包括具有鲜明特色的预警系统、实时投资分析、实时股票行情、财经新闻、技术分析报告和市场评论等。投资者简单方便地通过电话(固定电话或移动电话)、传呼、短消息系统、电子邮件、传真和电脑来接收这些重要信息。系统也可随时跟踪他的投资组合为其提供个性化的信息服务。这些高度个性化的信息服务将即时通知用户其投资证券价格的变化、重要新闻和其它相关信息,提高用户的投资回报率。

4.2 个性化信息服务

  个性化信息服务即指为个人提供的满足其具体需求的信息服务,有两个方面的要求:一是信息的及时性;二是获得信息手段的便利性。

  具体业务包括:统一消息服务、个性化新闻/信息、个人信息助理、统一通信服务等。

  用户只需通过电话就可以享受到互联网上提供的各种个性化的信息服务,可以定制网上新闻、设置个人行程安排。而由于系统中包含UMS系统,用户在获取信息时可以采取电话、E-mail、传真等各种手段。

  讯飞与上海知名的ISP联合推出的Voice-Mail系统,就是基于电话、手机、传真等通信工具,结合互联网络的电子邮件,为用户收发电子邮件提供形式多样的便利手段。

4.3 电话语音广告

  电话语音广告具体有提示音广告、等待时间广告、背景音乐广告等等。电话语音广告与传统广告相比具有很大优势:即时查询、内容丰富、特号专用、即时播报、广告费低、拨打者免费收听等。该类广告业务开通后,将受到企事业单位的普遍欢迎,也会为电信运营商、ISP、ICP带来直接的经济效益。

二、语音门户系统建设方案

1、建设方案总体描述

  TTS系统、VXML系统、UMS系统与已有IVR(电话语音自动应答系统)平台、Internet、PSTN结合的示示意图如下:

1.1 TTS系统与现有IVR平台的接入

  IVR是指自动语音应答节点,TTS Server是科大讯飞开发的语音合成服务器,为了充分利用资源,可以在系统内建设本地数据库,存放一定量的信息。

图:IVR/TTS基本调用流程示意图

  如图所示,一个包含TTS服务的电话访问流程大致可分为七步:

  1.用户电话拨入,系统IVR响应,获得用户按键等信息。

  2.IVR根据用户输入,向VXML系统(或本地数据库)申请数据。

  3.信息源返回文本数据给IVR。

  4.IVR通过其TCP通讯接口将需要合成的文本信息发送给TTS Server。

  5.TTS Server将用户文本合成为语音文件放置在一个共享目录中。

  6.TTS Server通过其TCP通讯接口通知IVR合成完毕,并返回文件名。

  7.IVR播放相应的语音文件给电话用户。

1.2 VXML系统与现有IVR平台的接入

  在这里VXML是指Voice XML的服务器,它负责接收IVR转发过来的用户按键请求,并返回信息数据和操作指令。

图:IVR/Voice XML基本交互流程示意图

  设计思路

  1.增加VoiceXML服务。

  2.在不改变原有平台的情况下,能够利用平台的标准通信接口调用VoiceXML服务。

  3.接口应尽量简便,方便调用。

  4.接口应能提交用户按键数据和其他信息等。

  5.接口应能返回相应的互联网信息和操作指令等。

1.3 UMS系统与现有IVR平台的接入

  下图为UMS系统的示意图。其中IVR平台与UMS 系统相连接。而UMS系统通过相应的服务模块与不同的网络进行信息共享,同时也可以和外部的Web Server进行信息交互。

  UMS系统通过一个唯一的信箱综合管理用户所有讯息,方便存档和整理,用户也无需去记住众多的帐号、密码。而通过传真、短信息、寻呼、语音等资源的整合,用户可以很方便的通过电脑、电话来收取自己的邮件、信息、语音留言以及传真等,不需要下载任何软件,也不需要购买传真机和留言电话。

  用户可以通过IVR系统与UMS系统进行交互,查询是否有最新的定制信息、邮件等到达,同时也通过平台来回复邮件、设定一些简单参数。通过用户在系统的设置,在用户有新邮件或是定制的重要信息到达的时候,系统可以按照用户设置,主动拨打用户电话、手机进行通知。

1.4 信息服务流程

  互联网信息服务

  互联网信息访问需要通过VXML系统来实现。当语音门户平台通过ASR系统接收到用户访问互联网络信息源的要求时,平台向VXML系统提交访问请求,VXML系统使用VXML规范访问Internet上的信息源从而获得需要的信息;VXML系统再根据IVR平台的请求返回结果;IVR平台获得文本后再通过TTS系统合成为语音,播放给用户。

  UMS服务

  结合UMS系统,语音门户平台可以提供给用户可定制的个性化信息服务。

  当用户主动访问UMS系统时,只需要输入唯一的身份标识号码,UMS系统将会到本地数据库中根据用户信息取得用户详细信息和用户接收的信息内容,再将这部分信息返回平台,用户可以通过ASR模块来查询需要信息,信息内容将会通过TTS模块合成给用户。UMS系统可以更进一步的根据用户的需要,主动向用户提供重要信息服务,按照用户的设置将重要信息以最快最直接的方式发送给用户。

  用户也可以利用电话对邮件、留言、传真等接收内容直接进行回复、转发、删除等操作,还可以通过语音对用户参数进行设定等操作,这些操作信息通过UMS系统进行执行,返回相应的操作成功信息,通过TTS模块给用户反馈。

2、TTS系统结构

2.1 总体架构

  语音门户系统的TTS平台建设基于现有的软、硬件,主要增加TTS语音合成服务器。语音合成服务器支持30路的实时语音合成,根据系统业务量可以通过增加语音合成服务器的方式进行扩容。合成代理服务器可以运行在TTS语音合成服务器上。

图:增加TTS Server后的交换平台

2.2 讯飞语音服务器技术特点

  2.2.1通讯机制

  语音合成的服务器和客户端通过面向连接的TCP/IP协议来相互通讯,支持跨平台访问的特性。服务器运行在Windows NT 4.0操作系统上,能支持30个并发的客户端的实时性语音合成请求。客户端可以是Windows 9x/NT,Linux,Unix等支持TCP/IP进行网络通讯的操作系统。客户端和服务器通过自定义的网络通讯规范进行交互,客户端可以控制服务器得多项合成特性,可以取得服务器运行状态的信息。

  2.2.2资源管理机制

  在大容量,高性能的应用场合,为了充分利用有限的语音合成资源,多台客户端可以通过动态负载均衡(Load Balance)机制共享语音合成服务器。客户端的组件LB AGENT(Load Balance Agent)能根据多台服务器发送的当前负载信息,智能的选择负载最轻的服务器发送连接请求。

  2.2.3状态监视和报警机制

  通过客户端运行的代理程序,语音合成客户端能取得多个服务器的当前状态信息。当服务器发生错误,不能继续服务时,语音应用服务平台还提供了的客户端报警机制。

3、VXML系统结构

3.1 总体架构

  在数据中心设置VXML服务器,提供访问互联网络的接口,地市台与中心服务器使用标准的基于应用层的协议通讯。地市台与数据中心交换网页和其他数据,这种交换是实时的。各地市的电话用户就能利用运营商提供本地电话号码访问互联网上的信息。

  数据中心是Voice XML服务的发布者,各地IVR平台为是Voice XML的浏览器,整个语音门户系统可以描述为一个服务中心、多个资源浏览节点。

  建成后的数据中心具有以下特点:

  1.运行可靠平稳。

  2.可平滑扩容。

  3.便捷的系统管理。

  4.易用的开发平台。

  5.可为多种平台提供服务。

3.2 平台的负载平衡机制

  VXML 解释服务器的负载自适应功能

  单个VXML解释服务器中内建先进的负载自适应功能。所谓负载自适应功能就是:VXML解释服务可以根据负载的历史纪录计算出下一个时段可能被分配的负载数或者是计算出下一个周期的负责分布情况,通过这些预估数据以最优化的性能提供服务。

  VXML 解释服务器的LoadBalance服务器

  对于一个网段中的VXML解释服务器来说,将有一个或者多个LoadBalance服务器做动态的负载平衡,每台VXML解释服务器来说有一个NM Agent(NetWork Management Agent)负责与Load Balance Server通讯。

网络结构简图如下:

  Web/VXML互访网关的负载平衡

  由于VXML 解释服务器的负载压力很大,因此首先应该将Web/VXML安装在与VXML解释服务器不同的网段中。由于Web/VXML互访网关是基于Web Server的因此,也必须作相应的负载平衡工作。

  该负载平衡方案可以采用DNS的负载均衡或者是反向代理负载均衡,具体采用要视服务规模而定,如果是大规模的服务推荐采用后者。

3.3 平台扩容设计

  当中心数据访问量达到一定程度时,需要进行系统的扩容。扩容工作包括两个方面。一个是拓宽网络带宽,一个是提高VXML服务规模。

  这里所指网络带宽包括中心的Internet出口、地市台访问中心出口。数据中心访问的总体规模加大时,要求中心具有相应的访问Internet的能力。大的地市台业务增加很快时同样要求其访问中心能力的增强。

  制约中心VXML处理速度主要瓶颈在对VXML的解释上。扩容时需要增加解释器服务器。动态负载平衡服务器根据会话管理器的会话请求,找到负载最轻的解释器服务器,分配解释任务。

  随着语音门户系统业务的发展,数据中心管理运行的VXML应用增加,这时VXML发布服务器的响应速度可能也会受影响,需要根据中心数据访问量和应用规模增加VXML发布服务器。

4、UMS系统结构

4.1 总体架构

  该系统将电话网和Internet网结合在一起,极大地扩大了两大网络各自的用户群,电话用户可以用电话或者传真获取Internet上的信息,电子邮件服务也可以不局限于Internet,而能对广大的电话用户开放。统一消息平台为用户带来的是信息的方便、及时,使人们在任何时间、任何地点都能够获取需要的信息。 统一消息服务系统解决了各种不同的消息表现格式间的兼容问题,从而将语音、传真、电子邮件、语音信箱/语音邮件等不同信息格式的业务有机地集成于一体。

4.2 业务功能描述

  UMS系统将电话网、寻呼网、移动网、互联网相互融合,在各个不同网络间提供通信和信息交换,向最终用户提供在任何时间、任何地点,以任何方式(如人工电话、自动语音、自动传真、寻呼、手机短讯、手机上网、电子邮件、WWW浏览等)的个人通信服务、个人化信息内容服务和个人化电子商务服务。

  UMS系统具有个性化网络信息商务服务、个人通信服务、个性化信息服务、个人化电子商务服务等几项功能,具体包括:

  1)个性化网络信息商务服务。

  UMS系统是一套具有标准化和开放性的综合信息增值服务平台,系统运营商根据此系统提供的E-Mail转电话(手机、传真、寻呼)、电话(手机、传真、寻呼)转Mail、电话(手机、传真、寻呼、Mail)留言、个人定制信息到达通知……等功能最终实现为用户提供全面的个性化信息网络商务服务。

  2)个人通信服务。

  个人通信服务的主要目的是借助个人现有的通讯设备如:寻呼机、手机、固定电话等,在维持现有设备功能的基础上,增加新的服务功能,实现与Internet的结合,本系统为每个客户建立一个独立的、可以接受文本、传真、语音、图象等多种形式的邮件信箱,客户可以以任意的方式来获取其中的内容,同时当有邮件到达后,系统可以采用该用户自己设定的方式进行通知,使得本系统能够成为一个体贴入微的事务助理。

  3)个性化信息服务。

  信息的价值在于用户对它的使用,在于使用过程中能为用户带来更大的价值;个性化信息服务专注的核心问题就是帮助用户充分有效地利用各种个性化信息内容,彻底提高各种商务活动的运作效率和获取更大的商业价值。用户可以通过自动语音服务、WWW页面、WAP页面以及人工服务等方式从本系统提供的信息服务中,选取符合自己要求的信息类别,如:某个类别的股票信息、某个类别的新闻信息、某个类别的求购信息、某个类别的出售信息等,并设置信息通知的形式如:呼机、中文短信、电子邮件等,也可以设置信息发送的时间以及间隔如:每一个小时发送一次、有新的内容时发送等;系统将根据个人的设置需要,按照约定的时间自动将客户关心的信息类别,按照客户约定的方式发布到客户约定的接收设备上。

  同时系统建设了智能化的个人行为模型分析功能,用户的个性化要求必须从了解用户入手。用户的性别、年龄、身份、职业、收入、喜好等个人资料是判断用户个性化要求的基础,而用户对信息的使用、对服务的申请以及所有的消费行为更是构成其个性化要求的重要依据。个人行为模型分析即是利用系统记录的用户个人资料及行为记录信息,对用户进行研究和分析,为每个用户建立行为模型并在不断的应用中加以修正。系统提供个性化服务,即是根据这些模型,为用户提供更加具有主动性和针对性的各种服务。并通过了解用户对服务的认识和使用程度,以发展重点服务和发掘潜在服务。

  4)个人设置。

  通过电话设置各种参数,包括修改帐号密码、设定通知时间、设定通知方式、设定通讯号码等等。

附录:

  术语简介

  1.TTS:Text To Speech,语音合成,是将文字转成语音的一种技术。

  2.ASR: Automatic Speech Recognize,语音识别。

  3.IVR:Interactive Voice Response,交互式语音应答系统。

  4.PSTN:Public Switched Telephone Network,公众电话网。

  5.CTI:Computer Telephony Integration,计算机电信集成,将电话网和计算机网结合在一起的技术。

  6.VXML: Voice Extensible Markup Language,语音扩展标记语言,可以实现语音访问互联网络。

中科大讯飞信息科技有限公司供稿 CTI论坛编辑


相关链接:
讯飞畅言语音教具系统荣获“创新软件产品” 2009-09-08
科大讯飞嵌入式语音新产品发布会在深圳举行 2009-09-07
“会说话”的显示屏提升居民小区信息服务水平 2009-09-07
讯飞语音助力太平人寿客服中心 2009-08-28
讯飞语音助力CDMA手机竞争终端市场 2009-08-14

分类信息:  语音合成TTS_与_语音识别ASR  语音合成TTS_与_voicexml  语音合成TTS_与_voicexml  语音识别ASR_与_voicexml
           语音识别ASR_与_voicexml