CTI论坛: 语音识别平台—

语音识别平台——科大讯飞

2007/09/20

一、产品概述

　　开放式语音识别器（OSR）是一个软件包，它可以为电话通讯提供高性能、非特定人的语音识别功能。它可以处理超过100万单词的海量词库，达到优异的准确率和无可比拟的效率。OSR不仅适于一体化系统，也适合客户—服务器—配置系统，并且共享一套通用的API以适合集成。此外，它还具备许多特性，使其非常适于用在 VoiceXML 系统。

二、产品优势

　　科大讯飞公司的开放式语音识别器（OSR），具备以下优势： 

优异的准确率和效率兼备的高性能。

支持多种语言及多语言混合识别。

可选择一体化或者客户/服务器两种结构。

简明的 VoiceXML 支持的特色。

带有两级缓存和远程获取功能的集成语法编译器。

平行、共享、脚本化的语法规则。

声学模型、发音和语法的自适应。

三、产品功能

 人性化的语音检测

　　大多数语音应用允许“barge-in（打断）”，通话人可以打断较长的提示音，快速完成交易任务。OSR的端点检测，可以有效地分析声音信号，依据振幅和频谱特征确认类似语音的声音，从而有效地识别背景噪音和通话者的语音。OSR 端点检测在每个通话过程中可以自动调整以适应安静的和喧闹的环境。此外，OSR 端点检测的“灵敏度”可以依据 VoiceXML 的要求被手动调整，调整范围非常广，适于在不平常应用中微调性能。对于分布式应用，OSR 端点检测的运行可以独立于语音识别器自身，甚至可以被替代，提供完整的集成灵活性。

　　高可靠的识别率

　　OSR识别率是非常准确的，是现有的、最好的商品化系统，相关指标上在业界领先。在满负荷系统的实际使用中，OSR 已经展现出其性能优势：对于小的英语词表，正确的反应回馈超过98%，对于非常大的英语词库，识别率超过 95%。然而语音识别在应用过程中，会由于不同任务、不同语言、不同系统、不同说话者的识别率而有所不一样。

　　先进的技术

　　OSR 的设计提供了高效能的操作，可以较轻松地开发出高处理能力的应用。OSR结合了多种技术以达到高效能，包括明确分段、有限状态转换机（FST）技术、负荷灵敏算法等。

　　大规模的负荷能力

　　OSR 部署的负荷能力随着CPU 速度、安装的语言包、语法大小和结构、占空度、所需反应时间和激活功能的不同而有明显不同，单台服务器120通道以上。

　　多样化的发音词典

　　OSR 支持2 级词典查寻以判断字词的发音。OSR 包括一个涵盖大多数常用字词的“系统”词典。OSR 支持可由开发者或者系统管理员定义的补充“用户”词典。用户词典可以用文本格式编辑，也可以使用提供的图形化工具，从选项板中选择音素，然后听组合的发音。

　　先进的“自学习”管理工具

　　OSR提供“自学习”管理工具，可以分析通话者反应，以提高识别率。“自学习”管理工具可以从语音应用的三个方面进行调节：声音模型可以被改变，以适应被观测到的声音环境并匹配音素发音的地区变化；发音模型可以被改变，以解决不常见发音的问题；语言模型可以被改变，以适应常见短语。

　　最优化VoiceXML技术

　　OSR是第一个为应用到VoiceXML系统而进行优化的语音识别引擎。OSR许多特性，可以简化这种解释器的构造并提高它的性能，OSR 同样也适用于非 VoiceXML 系统。

语法定义

　　OSR 本地支持 VoiceXML 所需要的“语音识别语法规范 (SRGS)” 文档格式。提供一个工具，可以将 Augmented Backus-Naur Format (ABNF) 格式的语法转变为 SRGS 格式。

语法加载

　　OSR 使用 VoiceXML 需要的“通用资源标示符（ URI ）“来获取语法。语法文件在远程系统中，OSR 将去获取该语法文件。语法文件储存在一个 2 级的内存和磁盘高速缓存中，以得到更高的效率。

动态语法

　　OSR 在需要时会自动编译语法。OSR 语法编译器非常快，在处理数千词的时候不会产生明显的延迟。较大的语法文件可以以预编辑的格式提供。如果有必要，OSR 也可以被配置成使用集中语法编译服务器。

平行语法

　　按照 VoiceXML 的提议，OSR 允许多种语法平行加载。通过免去编译一个单独的组合语法，可以提高效率，OSR 允许编译后的和原始的语法混合在一起。

ECMA Script 支持

　　依据 VoiceXML 的要求，OSR支持嵌入到语法中的 ECMAScript ，在识别处理过程的同时允许进行一些特定于应用的处理。ECMAScript 是一个标准的、通用脚本语言。脚本经常被用来计算返回值，也可以用来剪枝非法的语法路径。

DTMF语法

　　OSR 可以按照 VoiceXML 的要求处理 DTMF 语法。OSR 并不对声音信号本身进行解码，但是要求任何检测到的 DTMF 以符号的形式传入。通过将 DTMF 语法与语音语法并行加载，OSR 可以为通话者提供语音输入或键盘输入的选择。

内建语法

　　OSR 按照 VoiceXML 的要求包含 7 个内建语法，用以处理普通任务（逻辑关系、货币、日期、数字、数量、电话号码和时间）。

结果格式

　　按照 VoiceXML 对语义解释的提议， OSR 以“自然语言语义标记语言 ”（ NLSML ）格式返回结果。

　　多语种的支持

　　OSR 支持多语言识别，支持的标准语言包包括：大陆普通话、台湾普通话、粤语、德语、澳大利亚英语、新西兰英语、英国英语、美国英语、新加坡英语、美国西班牙语、墨西哥西班牙语、加拿大法语、法国法语、日语、韩语等。

　　OSR 包含许多工具用以帮助开发和维护语音识别语法，包括：

解析工具

　　OSR 包含命令行工具，允许通过检查特定短语的覆盖率或者生成任意的合法短语来检测语法。

语法编译

　　OSR 包含一种工具允许离线编译语法。尽管 OSR 在运行时可以根据需要编编译任意语法，较大的语法经常是采用预编辑以节省运行时刻系统资源。

语法转换

　　OSR 包含一种工具，可以将多种语法格式（包括 ABNF, SpeechWorks 6.x 格式和 GSL ）转化成 OSR 接受的标准的 SRGS 格式。

　　支持多种操作系统

　　OSR支持的操作系统如下：

　　客户端： RedHat 7.2、RedHat AS 2.1、Windows 2000、Windows 2003、Solaris 8等。
　　服务器端：RedHat 7.2、RedHat AS 2.1、Windows 2000、Windows 2003等

CTI论坛编辑