首页>>>技术>>>语音应用>>>语音合成(TTS)  语音合成产品

 

语音门户网革命

Cene Eagle 2000/12/04

  电子商务是当今世界最热门的商业趋势,而语音门户正在迅速成为电子商务中的热点。基于语音的互联网门户,也就是语音门户,代表着计算机语音与互联网融合的新趋势。

  语音门户让用户可随时随地轻松获取各种信息。例如,用户只需用普通电话机或手机拨打语音门户网的800号码,就可在语音提示引导之下用自然语言和耳朵便捷地“浏览”所需信息。在这个过程中,不必键入菜单选择,仅需简单的语音应答即可完成操作。所以,语音门户简单易用—无论是通过PC机、手机或者固定电话,也无论是在办公室、家中还是在路上、车上,“浏览”网络的过程变得轻松无比!

  由于语音技术的发展,语音门户将电话交互过程从以厂商为中心转向以用户为中心。这一转变在为用户提高效率和降低业务成本的同时,还将提高用户的满意度。

  未来数年,语音门户将大大改变人们使用电话的方式以及厂商与主叫用户沟通的方式。在当今以厂商为中心的模式中,主叫用户只能以挂断电话的方式来“摆脱”某一企业的交互式语音应答(IVR)系统。而在未来以用户为中心的模式中,主叫用户可与语音门户展开交互式对话,可以象“网上冲浪”般快捷、方便地从一家企业自由地“跳”到另外一家企业。


  语音市场火爆


  语音技术是当今迅猛发展的电子商务经济最重要的“推进器”之一。语音技术市场正在迅速成长,且发展势头良好。分析家预测,从1999年到2004年,语音技术市场将以每年31%的速度持续增长。语音技术市场的迅速扩展意味着我们正面临着大量部署语音应用的转折期。

  语音技术如此“火爆”有几方面的原因,这既与语音技术本身有关,同时也因为语音技术能够让开发商不断推出真正满足现实用户需求的应用。比如,90年代早期,简单的语音应用只支持词汇较少的(20到30个单词)命令和控制指令,且只能识别不连续的数字。现在,在我们的眼前却出现了诸如虚拟个人助理、股票交易代理、企业内自动值守、旅游订票系统和许多其他可实现语音功能的复杂应用。在不久的将来,在互联网上更将出现由大型词汇表(一百万字条)支持的自动目录帮助、企业应用托管等象语音门户这样的应用。


  技术是发展动力


  未来语音应用的关键在于语音技术的发展。在过去几年里,ASR引擎的精确度和词汇量已经大大提升。精确的算法、显著增强的处理能力、更低的成本和实现自助沟通、连续语音技术的不断发展推动了这些进步。Barging技术也已完善,可使主叫用户根据提示进行应答,并且可识别用户的应答。自然语言功能的推出也对语音应用的用途产生了极大影响。


  倍受服务商偏爱


  除了新型技术的出现和原有技术的发展外,在当今具有强大冲击力的语音应用发展大潮中,另外一个关键的因素就是技术供应商改变了自己的角色。当今的服务提供商(主要是过去的算法供应商)已经发展成为全方位应用的提供者,拥有大批人文因素设计、应用分析、系统分析、语言学和电话应用开发方面的专家,他们推出了广泛的专业服务,支持创建、部署和维护高级语音应用的功能。


  新工具不断涌现


  应用测试工具已经大大改进,使技术供应商能够开发快速、持续部署的应用成为可能。

  现在,从一种新型应用的基本研究设计开始,开发商就可谨慎地、小规模地进行测试,然后将测试的结果不断反馈到开发过程中,直到可部署实际应用为止。一旦一个实际应用部署之后,开发商可将这一技能应用到其他类似的应用中,这样,大规模快速部署新型应用变得相对简单轻松。

  同时,技术开发商也投入了很多精力来开发可方便快速部署应用的强大工具。对话应用组件(DAC)便是这样一种高级程序工具,它融合了大量从应用对话设计和从经常性用户交互中获得的大量宝贵经验和知识。例如,DAC可包含小程序,这些小程序允许用户从目录中选择项目、让应用程序收集信用卡号码、接收“是”或“不是”这样的回答、获取旅行出发点和目的地的信息或查看股票价格等。通过提供可再利用的目标程序中的专门技术,DAC可大大缩短开发新型应用的时间。过去需30人、数年才能开发出的应用程序,现在利用更少的人员、在数月甚或数周之内即可开发出来。


  转换质量提高


  除了语音识别技术之外,文字转换为语音(TTS)的技术水平也大大提高,成为促进语音门户发展的另一个重要因素。过去由于语音转换质量差,阻碍了TTS的广泛应用,而最新一代的TTS技术显著地提高了语音转换的质量,语言支持也得到很大的提高。此外,TTS现实应用中至关重要的组件—处理“脏”数据的预处理器已经开发出来。可修正、处理诸如首字母缩写词、缩略词和声调的电子邮件预处理器,也使通过电话阅读电子邮件信息的应用成为可能。


  应用前景广阔


  互联网电子交易革命使人们对即时信息接入和强大的交易处理功能提出了更高的要求。为了满足这种要求,业界在开发以HTML等脚本语言为基础的基础设施方面已经开展了大量的工作。

  新型的具有语音功能的语言,诸如VoiceXML,正在将互联网的功能扩展到电话上。现在,具有语音功能的语言不仅可以利用现有的基础设施,并可对支持互联网的整个基础设施进行补充,将互联网的基础设施扩展到客户机/服务器架构中,其结果是产生了可由基于互联网的远程应用来控制的、具有强大功能的语音服务器平台。


  语音也要交互


  可实现语音功能的交互式语音应答系统(IVR)的发展速度非常迅猛。比如,可考察一下利用800号码提供主叫用户接入服务的企业,最初的情况是用户拨打800号码,然后接到提供服务的人员处。但企业很快认识到人员配备成本昂贵,许多工作可采用自动处理方式,从而节约成本开支。IVR系统即可实现这种自动处理。企业下一步就是将IVR系统与数据库集成在一起,以便IVR系统可动态地处理信息。这样,主叫用户利用计算机语音集成(CTI)技术接入企业的IVR系统。之后,这一呼叫被IVR系统实时转移到相关人员处,同时,个性化的主叫用户信息(比如未完成的订货情况)可通过弹出的屏幕传递给这一处理人员,这为企业提供最好的服务建立了坚实的基础。另外,通过使IVR系统前端具有语音功能,强大的ASR功能可使企业节省更多成本。

  对主叫用户而言,语音意味着更自然和更舒适的界面。可实现语音功能的IVR应用也比双音多频(DTMF)或按钮应用更方便。这将带来更好的投资回报。


  第一个语音门户


  到2001年,全球将有10亿多部电话投入使用,任何企业都不应该置身于这些用户视线之外,否则后果不堪设想。企业非常需要借助语音门户网以向用户提供接入服务。在服务提供商的基础设施中添加的语音门户网,将从根本上改变企业与用户“沟通”的方式,以及用户与企业互动的方式。

  11月24日,TOM.COM在国内第一个开通了语音门户“TOM及时语”,用户通过拨打热线电话(010-85180012)即可通过与系统的语音交互获得个人理财、语音邮件、航班查询、北京地区酒店预定、定餐及叫车、全球新闻、天气预报等内容广泛的服务。

  TOM及时语由于采用了计算机电话集成技术的开创者和领导者Intel子公司Dialogic的语音门户开发平台和全球语音技术领导者IBM公司的语音识别技术和语音合成技术,因此在短短3个月时间内就完成了系统的开发和测试,真正体现了互联网时代的效率和速度。这再次证明,快速、大规模部署语音门户的技术条件已经成熟,语音门户的时代已经到来!

《赛迪市场专家》2000/12/04

 


分类信息:  语音合成TTS_与_语音识别ASR     技术_语音合成_文摘   技术_语音识别_文摘