核心技术与流程设计语音门户的两扇门_语音合成_语音识别

核心技术与流程设计语音门户的两扇门

郭连颇 2002/01/30

语音识别是关键

　　语音识别技术是语音门户的核心技术，掌握好这项技术，是语音门户获得成功的第一步。

　　1．识别引擎

　　语音识别引擎是语音门户的核心。语音识别引擎不仅要听懂用户的语音，还要完成语言理解、语法分析、对话（包括人机对话和流程）控制和语音输出等工作。识别引擎可以识别不同的语言，但需要不同的语音库来支持。例如，在同一个引擎下，外挂中文或英文语音库就可以识别中文或英文语音。

　　语音识别技术的成熟和商品化，依赖于软件算法的进步，更依赖于硬件性能的提高。20世纪90年代末，计算机硬件性能的飞速提高和价格的急剧降低，使语音识别技术从实验室走向了市场。

　　识别率是语音识别引擎成功与否的关键，为了在电信网络上提高识别率，要有针对性地处理以下问题：

　　（1）回声：在电信系统中，语音传输过程中的回声将极大地影响识别率。要将回声抑制掉，必须在硬件和软件上对信号进行处理。

　　（2）噪声：包括用户环境噪声和系统中的电子噪声，前者需要语音识别引擎软件来处理，后者一般由硬件处理。

　　（3）语音中断：用户不必听完系统播报，可以随时说出新的服务需求，系统将中断播报，并为用户提供新的服务。目前，主流的语音卡都提供了语音中断功能。为达到更好的效果，识别引擎还必须提供专门的接口，以保证两者能够更好地结合。

　　2．自然语言处理

　　只有提供自然语言识别功能，语音门户的用户才能享受到亲切、快捷的服务。在一些复杂应用中（如查询航班/火车时刻表，股票买卖等），采用自然语言对话，才能发挥出其替代按键的优势。除了识别引擎要具备自然语言理解能力外，在应用开发中也有大量的工作要做。

　　自然语音识别技术使计算机能够听懂和理解人的语言，用户不必用固定的语序讲话。系统能够帮助用户明确其需求，并提供准确的服务。系统应该能够听懂自然的语言，并到数据库查询出信息，再播报给用户。对于一些不太规范的语句，系统同样应该听懂，并逐步引导用户，以便向用户提供服务，这才是真正的自然语言识别。目前，有一些承诺提供自然语言识别的系统，往往要求用户一次说清全部需求，这不是真正的自然语言识别，在现实应用中，也是无法使用的。

　　3．TTS

　　TTS是语音门户中的一个重要技术，它提供了系统向用户输出的语音界面。

　　与拼音文字不同，中文的“词”由一个或多个汉字组合而成，如何断词并正确地发音，需要有一个非常大的、及时更新的词库来支持，还需要对上下文进行判断。因此，中文TTS的开发难度要比英文大得多。

　　经过长期研究，中文TTS取得了非常大的进步，也有了一些专门支持电信级应用的系统。在现有的技术水平下，TTS能够满足一般的阅读要求。但读时事新闻、电子邮件（尤其是包含许多缩略语和中外文混合的文本）和文学作品时，其效果还不能令人满意。

　　要判断TTS的水平，不要用开发商提供的样本，也不要让开发商代劳输入汉字，建议用户随意摘录网上的新闻，直接粘贴到TTS文本窗口中，然后直接进行测试。TTS是给普通用户听的，不是给专家听的，其直观的效果最重要。

流程是人性化服务的保证

　　流程设计是质量控制的核心，即使语音识别的准确率再高，也不可能达到100%。因此，设计一个好的流程来帮助和引导用户，并克服语音识别的新问题，是提高语音门户服务质量的核心。同时，一个好的流程，也是为运营商创造价值的基础。

　　1．有别于IVR的流程

　　受电话按键的束缚，传统的按键信息服务系统（IVR）必须把各种服务分成多层，或者开设多个电话号码。

　　（1）新的“层”概念

　　由于引入了自然语言识别技术，在语音门户中，“层”被授予了新的内容。它不是一个机械的分类标准，而是帮助用户的导航界面。它将引导新用户一步步接近目标，并帮助老用户直接达到目标。语音门户可以在原有结构的技术上引入语音导航，也可以打破原有结构，建立新的、更适用于语音导航的流程。

　　（2）实现任意跳转

　　传统的IVR系统中，如果用户通过多次按键，进入了某项服务，就很难访问另一个服务。这时，用户要么必须根据系统提示，逐层返回、逐层进入；要么已经在系统中迷路，无法进入其他路径，只能挂断电话，再次拨入。而语音导航能够听懂用户的需求，可直接跳入另一栏目或服务，不必逐层返回和进入。

　　2．语言学处理

　　语言是“活”的，因此，语音门户也必须能够灵活地处理用户需求。

　　（1）多音词和同义词：系统必须能够自动处理多音词/字和同义词，才能满足不同的客户需求，保证识别率和服务品质。

　　（2）无义词：系统必须能够自动过滤没有意义的词/字，减少对用户的约束，提高人机对话的自然度。

　　（3）口音适应：中国地域广大，人口众多，方言和口音十分复杂。因此，除为特定区域的用户提供专用的语言引擎外，普通话引擎要适应带有一定口音的用户。系统集成商还需要根据使用情况对系统进行调整，建立自学系统，不断提高系统的识别率。

　　3．人性化提示和错误处理

　　（1）不同的提示和帮助：要根据不同的情景提供提示和帮助界面，如，有时需要严肃，有时需要活泼。

　　（2）人性化引导：要提供人性化的提示和引导，才能发挥语音导航和服务的优势。

　　（3）错误处理：在听觉上，机器不如真实的人，不可能有100%的识别率。如何处理错误，让用户理解并愉快地接受，就需要制定错误处理原则并灵活地运用技巧。基本的系统应该对用户没有讲话、用户讲错了话、系统只听懂一部分等现象具有判断能力。

语音门户的弱点

　　语音门户不是万能的，它在一段时间内没有得到大面积的普及和推广，是由于其自身尚存在着一些弱点，其中，主要是信息量有限的问题。

　　语音门户主要提供语音服务，但听觉能够接收的信息量是有限的，远远小于视觉能够提供的信息量。有些语音服务，如读E-mail、语音上网等，仅仅是应急时的需要，不能替代传统的电子邮件和浏览器。同时，并不是所有的信息发布和服务都适用于语音门户，那些信息量大、更适合视觉浏览的信息就不适用于语音门户。

计算机世界报 2002/01/30