首页>>厂商>>语音识别与合成>>天朗语音

天朗分布式语音识别系统在语音门户中的使用

2003/10/13

1.语音门户发展的背景

  语音门户是指基于互联网平台,应用语音识别、语音合成和其他技术,为固定电话、移动电话以及使用手持设备(如:PDA)的用户提供语音访问互联网并获取网上资讯的门户,这是全球互联网发展的最新动态。

  由于传统的上网方式限制了互联网的上网人数,互联网的访问模式逐渐从单一的访问方式向多种用户终端发展 ,如:电话、移动电话、PDA、机顶盒等。在当今科技飞速发展的地区,语音上网成为继无线WAP上网之后的又一个发展热点。人们喜欢用人类自然的语音,通过友好的语音交互方式直接来获取信息和服务。1999年 ,Evans Group Research分析了对250个使用不同语音系统的用户进行调查,调查的结果反馈和定量分析表明:对语音系统和按键式系统的使用受欢迎程度,83%的用户更喜欢使用语音系统而不是使用按键式系统;而对于语音驱动系统和与坐席进行通话,74%的用户更倾向于前者。

  语音访问,作为人类最原始、最自然、最人性化,也是最有效的交流方式,正以其不可阻挡的强劲势头融入到互联网中。在美国市场,以Tellme.com和Nuance 、SpeechWorks为代表的企业异军突起 ,倡导人性化的语音上网服务。随后Yahoo、Lycos等著名互联网公司纷纷进入相应的服务领域,建立大规模的语音门户网站,而AOL则提供所谓AOL-By-Phone服务。

  从技术角度看,过去数十年来,语音识别(ASR)技术、文语转换(TTS)技术已经从实验室中逐步走向成熟,其算法的复杂性也逐年下降,从而使这些技术逐步在市场中得以应用;另一方面,计算机的运算能力每两年就翻一番,也为这些技术的商业应用奠定了坚实的基础;再加上移动用户终端的种类与功能也在以前所未有的速度增长;所有这些技术的发展都为基于语音的互联网门户的发展提供的可靠的保证。

2.语音门户

  丰富的网络内容,电话的普及。所谓的语音门户是集合了所有那些已经成熟的网络资源的一种新型网站。那么语音门户到底是什么呢?语音门户就是通过任何一部电话使用人类自然的语音来访问互联网上的一些基本信息、电子商务以及个人通讯服务。语音门户阐明的是使用电话来访问互联网上的相关内容和信息。

  对于用户而言,通过使用电话的会话方式来浏览信息和管理事务仍然是目前最自然和最有效的方法之一。随着计算机运算能力的提高和识别技术算法的快速发展,促使基于各种平台的语音识别系统能识别人类的自然会话。在20世纪90年代中期以来,许多主要的有自己独特技术的公司开始运转语音商务(基于语音的电子商务)系统。他们这样做的目的是为了给那些希望通过使用语音技术无论在何时、何地都能获得大量的信息和查询一些实时股票交易信息的人提供服务。正如个人通过使用计算机来解决访问因特网的方法一样,这些围绕着基于语音技术应用来展开的一种新型的网络叫做语音门户。

  语音门户发展到现在,越来越多的公司正迅速朝着包含有各种服务(如:统一消息、网上购物)和基于互连网的各种内容(如:电影,黄页)的网站发展,从而让用户只要通过任何一部电话就能使所有的这些都成为有用信息。企业和电子商务公司也明白通过语音技术和全球所拥有的电话用户人群来发展他们的用户是一个非常好的机会。基于行业技术标准的出现和产品实用性的加强将加快语音门户的发展,同样对于语音行业标准的产生也将有助于互联网的快速成长。

3.市场的影响产生对语音门户的需求

  市场的多方面影响以及结合一些实际的需求即某一用户无论在何时,何地都能直接通过语音来提供给个人在某方面的内容以及服务。

3.1随着个人电话的普及,尤其是手机的普及。
  随着手机服务商的快速增加,手机的用户数也将随之增加。预计到2003年全球将会有十亿个手机用户。这些数字表明未来通过电话来访问互联网无疑是最普遍的一种工具,既然人类的自然语音通过电话能够被识别何理解的话,那么电话将无疑是最适合的一种工具用来提供关于大多数用户所需求的市场和服务。

3.2互联网的快速发展
  在最近5年以来,互联网作为信息传输的一种新兴的媒体而使整个世界发生了根本性的改变,现在全球大约有2亿个用户使用互联网作为他们在日常生活中必不可少的一部份,用户通过互联网能得到他们所想要的便利、娱乐以及提高他们的工作效率。

  互联网提供了大量的各种各样的实用信息,但是要获得这些信息并不是随处可得,用户必须在家里或办公室通过电脑联网来获得这些信息。这对于在一个信息快速更新的社会并不是一件令人愉快的事情。所以消费者对于互联网内容和信息的大量需求促使各种生产厂商设计出各种各样的产品,如PDA、手机等这些可随身携带又能直接与网络互联的产品。

  这些设备的快速发展促使通过手持设备和手机来访问互联网的内容是可实现的,而基于文本的互联网的内容也是非常有用的,但缓慢的传输速度与互联网连接的困难以及这些设备的小屏幕都限制了这些设备的使用价值。

  电信的增值服务改变用户无论在何地、何时的要求都能直接访问互联网的内容是激动人心的。但个性化的服务可使个人和商务快速获得和容易访问他们所关心的内容和信息。因而语音门户的出现及时改变了电话的应用范围,从而使电话成为从网络媒体上得到语音和数据信息的一种最便利的设备。

4.语音门户的优势

  语音门户简单易用,让用户可随时随地轻松获取各种信息--无论是通过PC、手机或者固定电话,也无论是在办公室、家中还是在路上、车上,"浏览"网络的过程变得轻松无比!

  根据语音门户平台面向的对象来说,我们可以从个人,也就是最终消费用户,以及企业,也就是服务提供方,两个角度来考察语音门户平台的优势。首先,对广大最终用户来讲,语音门户平台方便、快捷、自然,而且不需要额外成本来添加设备。用户只要对着普通电话说话就行了,不再受制于按键音频,不再受制于电脑和一大堆连线,也不再受制于网络专业知识的贫乏。同时,用户还可以根据自己的喜好定制个性化服务,集中关注个人业务;并且可以从各种各样的信息源、信息终端中解放出来,获得统一消息服务带来的自由和方便。

  其次,企业本身也必然会得益于语音门户平台。企业利用语音门户,不仅可以通过节省人工坐席成本来低成本地发布信息,提供客户服务,而且可以实现其他一些有价值的业务,开创新的市场空间和利润。

  总之,语音门户将电话交互过程从以厂商为中心转向以用户为中心。这一转变在为用户提高效率和降低业务成本的同时,还将提高用户的满意度。未来数年,语音门户将大大改变人们使用电话的方式以及厂商与主叫用户沟通的方式。在当今以厂商为中心的模式中,主叫用户只能以挂断电话的方式来"摆脱"某一企业的按键式交互语音应答(IVR)系统 。而在未来以用户为中心的模式中 ,主叫用户可与语音门户展开交互式对话,可以象"网上冲浪"般快捷、方便地从一家企业自由地 "跳" 到另外一家企业。

5.语音识别技术

  电话的出现已经有120多年的历史,而使用在商业应用上相关的语音识别最近几十年才开始进行研究。事实上,一直到90年代中期基于电话并且提供大量的词汇、使用者不需要经过任何的培训并且支持各种类型电话的语音识别软件才出现,目前语音识别系统能支持自然的习惯用语,例如"我想查询四川长虹的最新价格"。

  语音识别的处理是在网络服务器中进行处理而不是在电话中进行处理,可升级的系统配置可支持几百万访问者同时也支持通过不同的线路来发出相同的信息请求来进行识别,访问者也可以在他们得到他们想要的信息后自动返回。

  对于目前所采用的任何一种新建的主流服务它们必须要有一定灵活性和易使用性。使用基于语音服务来构建的所有商业信息是因为语音识别提供了对不同年龄和不同生活方式的用户可以通过他们手中的任何一部电话来得到他们所需要的信息。

6.语音门户的核心技术
  语音门户的核心技术是Voice-XML(简称为V-XML)。
  V-XML是W3C组织制定的主要用于电话语音识别的一个脚本描述语言,它和现在的IVR系统常用的脚本的功能和目的类似,但是不同的是,V-XML是一个标准,它是在众多IVR应用的经验基础上加以规整、合并而制定出来的,继承了众家之长。目前,有许多厂商都采用该描述语言作为他们建立IVR系统的描述语言。

  V-XML本身就定义了语音识别有关的tag,因此,集成天朗分布式语音识别系统到VXML引擎中变得更加简单。只要参照VXML本身的定义来做就行。另外,VXML脚本也不过是一种IVR常用的脚本语言,因此,集成工作和IVR系统集成天朗分布式语音识别系统基本类似。

天朗语音公司供稿 CTI论坛编辑



相关链接:
天朗分布式语音识别系统改造传统IVR 2003-10-10
天朗分布式语音识别系统产品白皮书 2003-09-27
键盘渐成摆设,未来手机一呼通 2003-09-22
天朗语音成功开发出分布式语音识别系统 2003-09-19
天朗"一呼通",提升智能化 2003-04-28

分类信息:  语音识别ASR_与_voicexml  语音识别ASR_与_voicexml     技术_语音识别_解决方案   技术_voicexml_解决方案   技术_voicexml_文摘