Nuance OSR3.0语音识别产品_语音识别

Nuance OSR3.0语音识别产品

2006/09/13

　　2004年9月，捷通华声在中国市场正式推出由Nuance公司开发的具有国际最高水平语音识别技术——OSR（OpenSpeech Recognizer )。

　　之所以称之为OSR，是因为此项语音识别技术是一种基于开放标准、可扩展、高性能和高识别率的识别引擎，提供大词汇量、非特定人、连续的语音识别功能，尤其是在各种无线环境之中对于噪杂音的处理功能强大。最新版本的OSR产品是集成了OpenSpeech语音识别以前版本的多种高级功能，它所包括的有限状态转换器（Finite State Transducer）专利技术不仅能够显著地节省内存和CPU的使用，而且还能够支持包含数百万单词的应用词汇表。

　　OSR产品将以SDK的方式提供给集成商，可广泛应用在呼叫中心、自动总机、语音电话本、旅行预定、信息检索、语音门户和客户自助服务等系统中。在语音核心技术、语音应用和服务领域，Nuance的语音产品已占有最大的市场份额，所提供的解决方案成功的将每年约500百万的电话服务转化成自动化服务，并具有能与所有主要的语音平台厂商集成应用以及能支持多语种的产品特色，使之成为财富100强首选的语音提供商。

　　一、OSR3.0主要特点

　　1、高识别率

　　语音识别产品的识别率与产品核心、呼叫者使用环境、呼叫人群口音、IVR平台流程设计等都有密切的关系，OSR产品在杂音消除、改善核心算法、提高信心得分的准确度等方面进行了大量的工作，使OSR在实际应用中识别率均达到95%以上，对于小词汇量的应用识别率则更高。

　　2、强大的语法分析功能

　　OSR产品支持百万词汇的复杂语法应用，利用SpeekFreely技术还可支持自然语言问答式的语法识别。利用OSR的先进语法处理能力，用户可以利用ECMA脚本语言书写更复杂的语法，可以创建动态的应用，并具支持共享语法，大幅度提高系统效率。

自由问答式对话（SpeakFreely）

　　SpeakFreely功能模块，能够实现一组基于口语统计模型的高级语音识别功能。SpeakFreely简化了复杂语音应用的创建，允许用户使用自己的词汇说出自己的需要，从而提高了交互的效率（在传统系统中，要求用户回答一系列答案数量有限的提问）。

支持动态语法处理

　　在一个单独的应用程序中OSR可以动态访问多个语法，而且不需要有“组标识符”。使用者可以用编译前的语法（这些是每个呼叫者共有的）和实时编辑的每个呼叫者特有的语法结合，来建造应用程序。在呼叫者和应用之间的共享语法大幅度增加了系统效率。

支持ECMAscript

　　这些模块可以嵌入一个语法或在多个语法之间共享。也允许开发者去写更多的复杂的语法。通过这个途径，修改一个单独的ECMAscript脚本模块可以影响整个应用程序，不论这个脚本是否被使用。

　　3、独特的语音端点检测技术

　　OSR拥有一套独特的端点检测算法，可以依据振幅和频谱特征来进行检测，从而有效地区分背景噪音和通话者的语音。OSR端点检测的“灵敏度”可以手动调整，以适应安静或喧闹的不同环境。

　　4、适应性强(E-learn自调节功能)

　　通过Nuance具有专利技术的自动调节机制“LEARN”学习功能，系统可以自动调节识别参数和声学模型，以适应呼叫人群的本地方言、区域口音和电话信道等特点。通过“LEARN”自动调节机制，识别错误率最多可下降70%。

　　无需修改，OSR就可以在广泛的应用中很好地工作，并适应广泛的通话人群。但是，使用某种应用的人群经常会偏向某个特定的通道类型（有线或者无线）、口音（上海口音或河南口音）或者环境（安静的或者嘈杂的）。甚至应用领域本身都会偏向某种发音或者偏向某种习惯短语。OSR包括一种被称作“LEARN”的管理工具，该工具可以分析通话者的发音特征，并用来优化系统，以提高识别率。

　　5、高性能、低资源消耗

　　独特的音频分析方法及具有专利的有限状态转换技术，使OSR产品在实际应中，内存占用和CPU的消耗极低。对于复杂的语法应用可以节约90%的资源。

　　OSR结合了多种技术以达到高性能，包括曾经提到过的明确分段方法。它也包括享有专利的有限状态转换机（FST）技术，该技术通过共享冗余段，简洁地表现语法。通过减少那些必须经过处理来判断识别结果的音素的数量，可以除去冗余从而节省内存和计算。它也可以使语法更快地编译和加载，速度可以提高到5倍。这种节省是非常显著的：一个消耗170兆字节的、包含40，000词的语法，通过FST技术可以仅仅消耗15兆字节。

　　每个语音识别器通过应用更多的计算资源，可以提供更高的识别率。OSR与同类竞争识别器相比，对于这种变化的灵敏度要低一些，因为它有高效的设计。但是，OSR结合了负荷灵敏算法，这可以使所有的可用计算资源发挥地最好。事实上，Nuance是第一家开发这种技术的公司。

　　OSR可以自动地允许语音识别程序在所有的通道上共享被加载到内存的一份语法。这对于许多通道上运行同样应用的、大规模的使用而言，可以非常显著地减少内存使用。

　　6、支持开放标准

　　OSR产品是根据VoiceXML设计的，对SRGS（Speech Recognition Grammar Specification,语音识别语法规范）的支持等特点使VoiceXML 和 SALT 应用达到最优状态。

　　7、支持多种应用方式

单机应用（本地应用）：用户可以直接在运行IVR的机器上加载OSR；

客户端/服务器（C/S结构）：用户可以直接在服务器端加载OSR，客户端通过网络发送语音信号并获取识别结果，这种方式主要用于实现大规模应用需要；

VoIP：用户也可以在一个基于VoIP的客户端/服务器架构中配置OSR，在这种情况下，客户端是一个VoIP媒体网关或媒体服务器，服务器是MRCP版本的OpenSpeech服务器，它提供了带有标准的VoIP协议接口的OSR。

　　8、支持多语言，包括多语言混合识别

　　OSR产品目前提供15种语言和方言，包括：普通话（中国大陆、台湾）、粤语（香港地区）、英语（澳大利亚、新西兰、英国、美国、新加坡）、法语（法国、加拿大）、德语（德国）、日语（日本）、韩语（韩国）、西班牙语（美国、墨西哥）。

　　OSR产品的WorldAware功能支持多语种的混合识别，甚至允许单个语句中的任意语言混合，可以用于构造更加复杂的语音解决方案。

　　9、支持多种操作系统

　　OSR可在下列操作系统下使用单机和客户端/服务器配置：

　　客户端操作系统：RedHat 7.2、RedHat AS 2.1、Windows 2000、Windows 2003。

　　服务端操作系统：RedHat 7.2、RedHat AS 2.1、Windows 2000、Windows 2003、Solaris。

　　二、硬件配置要求

词汇量	运行系统	硬件环境	可支持端口数
2000以下	Windows 2000以上	至强双CPU 2.4G；1G以上内存，20G硬盘；100M以上网卡；	120线
40000以下	Windows 2000以上	Windows 2000以上至强双CPU 2.4G；1G以上内存，20G硬盘；100M以上网卡；	60线

　　三、应用案例

美国联合航空（United Airlines）：客户通过致电1（800）824-6200，应用OSR语音识别技术可方便查询联合航空公司每天2400个航班的状态，每天有8万多人使用这一系统。

AOL电话服务：采用Nuance OSR等语音技术，为America Online的2400万客户开发和部署了语音门户服务。

Thrifty汽车租赁：Thrifty租车公司是全球最大的的租车公司之一，通过拨打Thrifty的1-800-THRIFTY预订电话号码，客户在应用OSR语音识别技术获得高效服务的同时，也获得最优惠的汽车租用费率。

捷通华声公司供稿　CTI论坛编辑