CTI论坛: VoiceXML点燃网络语音这把火

VoiceXML点燃网络语音这把火

李向林 2000/12/11

　　通过语音获得网络信息和服务代表了电子商务未来的发展方向。IBM最近推出7种新语音技术产品，这充分表明，IBM计划要将语音技术作为其网络开发的关键因素。在推出的产品中，基于ViaVoice技术的WebSphere Voice Server（语音服务器）是核心。这一新平台将使得消费者的移动终端产品能支持有声的Wap VoiceXML。IBM目前的主要目标是，“使自然语音变得易用，使移动Internet变得方便，降低网络使用费用。”

　　IBM的第二目标是“无线”，所以公司的许多产品都在推进无线概念。IBM已与Nokia、Cisco及Motorola联合，致力于推出新型无线技术和无线解决方案。另外，IBM还与Siebel Systems、General Magic、Luminant紧密合作，以扩展无线语音Internet技术。

　　IBM还把ViaVoice Dictation（用ViaVoice叙述）引入Linux，这将是首次把语音识别系统加入到这一操作系统。进行这一工作时，将使用IBM的Embedded ViaVoice Java工具包的多平台版本。

　　在语音识别领域，IBM积累了30多年的研究成果以及业界领先的ViaVoice语音识别软件。IBM WebSphere 语音服务器也正是建立在这一核心技术之上，所以在提供语音门户解决方案上，IBM可以说是厚积而薄发，取得这一市场领导地位也就是水到渠成的事。

　　IBM WebSphere Voice Server是IBM使企业开发和实施网络应用语音功能而提出的方案。 WebSphere Voice Server包含以下内容：

　　VoiceXML 浏览器（VoiceXML Browser）

　　这个组件解析并使用VoiceXML 1.0。由于VoiceXML可提供高级界面，标识语言也类似于网络开发语言，使得建立对话应用比较容易。

　　语音识别引擎

　　对ViaVoice命令和控制语音识别引擎（ViaVoice Command&&Control Voice Recognition Engine）和数据进行了优化，适合于电话环境中。

　　文字到语音转化引擎

　　ViaVoice文本到语音引擎（ViaVoice Word-To-Speech Engine）用于播放识别的文字和应用提示。

　　系统管理

　　提供基本的命令系统管理工具。

　　WebSphere Voice Server可以与支持XML语言的网络应用服务器一起工作，而VoiceXML网页可以由CGI、Active Server Pages(ASP)、JSP和其他工具创建。

　　使用IBM WebSphere 语音服务器软件开发工具箱（SDK）和ViaVoice技术，可以快速开发有语音功能的网络应用系统。软件开发工具箱SDK包括VoiceXML浏览器、语音识别和Word-To-Speech转换引擎、开发和调试语音功能网站的语音技术工具以及VoiceXML应用示例等。

　　IBM还提供企业开发和实施语音功能网络应用所需的集成服务，如需求分析、概念确认、语音集成解决方案及平台迁移等。

　　近日，IBM又与英特尔公司Dialogic分部宣布，双方将利用各自的产品和技术优势，联合推出语音开发平台。为语音应用的开发商提供高性能、易于使用的语音开发环境。

　　双方合作推出的这个平台，将帮助开发商开发各种最新的语音应用，例如互联网语音门户、基于Web的呼叫中心、统一消息系统，以及其他基于语音技术的应用。

　　英特尔公司Dialogic分部是生产高性能、基于标准的计算机语音构件的厂商。Dialogic将CSP技术集成到ICT系列语音处理板卡上，CSP通过在电话语音处理板和主机CPU间预约处理预约数据，来优化基于主机的语音识别引擎的性能。CSP在Dialogic板卡上用于前端语音数据处理，主机系统可以更好地提高语音识别处理能力。

　　AT&&T 及Lucent也在使用VoiceXML开发标准化语音平台、应用软件及开发工具，以能够为移动办公人士提供多样可语音访问的Internet内容及服务。

　　AT&&T 正使用VoiceXML试验一种称为“Unified Alerting"的提醒服务。这种服务做为公共电话网与Internet之间的桥梁，使得Internet或企业内部网上的信息、电子邮件能够被传到用户的电话、寻呼机等多种通讯设备上，并且在计算机语音引擎的驱动下将接到的信息读出，被提醒的时间及方式是由用户来选择决定的。

　　Lucent正销售给无线营运商一种用VoiceXML开发的软件服务GeoWeb。在这种服务中无线通讯网络首先判断用户的位置，然后允许用户用语音通过移动电话无线访问网页。

　　作为最早支持VoiceXML的厂商之一，摩托罗拉的最终希望是通过三种途径来访问Web：一种是通过普通PC机上的浏览器，第二种是通过手持设备（手机）上的微型浏览器用WAP来访问，第三种是利用语音。

　　摩托罗拉的硬件设备是Vox网关，它完成自动语音识别（ASR）、文本到语音（TTS），并且也是一个电话界面，用来呈现VoxML（摩托罗拉的VoiceXML版本）。它充当了电话和Internet文字之间进行语音指令与服务翻译的中介。语音网关服务器中内置了语音浏览器，网关使用标准的Internet协议访问Internet。

　　同时摩托罗拉还提供一种移动应用开发工具MADK。该工具使移动应用开发能够在单一开发环境下创建多个终端用户界面，VoxML的语音界面以及WML的数据界面。在VoxML方面，包含有HTTP链接，便于仿真网络接入VoxML的应用。应用仿真器负责管理基于代理的自动语音识别ASR及TTS的合成引擎。通过MADK开发出的应用将运行在摩托罗拉公司新的移动互联网交换平台上（MIX，Mobile Internet Exchange）。

　　Nuance有自己的一套语音识别系统，包括语音识别引擎和开发工具，可以帮助第三方开发者开发应用。

　　Nuance浏览器和可语音激活的服务器，叫做Voyager。现在，它比较类似一个个人信息助手，用户可以在一个电话中从一个站点浏览到另一个站点，查时间表、预约晚饭餐桌、阅读地图接受驾驶向导服务。虽然其功能并不比一般的个人信息助手强很多，但是用户对系统的输入是通过ASR，系统的输出是通过TTS，而一切都在VoiceXML的控制下。Voyager的ASR/TTS服务器将被销往ISP和运营商。

　　V-Builder是Nuance开发的一种工具，用来将HTML内容转换成为VoiceXML。V-Builder将作为语法转换和提示纪录的工具出现。

　　比利时语音技术企业L&&H公司同美国SimplySay公司结成了联盟。L&&H公司表示，同SimplySay的策略联盟是L&&H语音门户策略的关键部分。L&&H语音门户是以L&&H的自动语音识别和L&&H的RealSpeak文本到语音（TTS）技术为基础开发的，它基于SimplySay平台，该平台为快速有效地创建语音门户提供了一套可伸缩的、容错的和基于标准的软硬件产品。该语音门户应用包括翻译Web内容的L&&H iTranslator、检索音频文件的Audio Mining和从Web页中概括和抽取主题的IntelliScope Topic Extractor and Summarizer。

《赛迪市场专家》 2000/12/11

分类信息: 语音合成TTS_与_语音识别ASR 技术_语音合成_新闻技术_语音识别_新闻