首页>>>技术>>>语音应用>>>语音合成(TTS)  语音合成产品

不仅是技术—语音门户专题系列(一)

核心技术与流程设计 语音门户的两扇门

郭连颇 2002/01/30

语音识别是关键

  语音识别技术是语音门户的核心技术,掌握好这项技术,是语音门户获得成功的第一步。

  1.识别引擎

  语音识别引擎是语音门户的核心。语音识别引擎不仅要听懂用户的语音,还要完成语言理解、语法分析、对话(包括人机对话和流程)控制和语音输出等工作。识别引擎可以识别不同的语言,但需要不同的语音库来支持。例如,在同一个引擎下,外挂中文或英文语音库就可以识别中文或英文语音。

  语音识别技术的成熟和商品化,依赖于软件算法的进步,更依赖于硬件性能的提高。20世纪90年代末,计算机硬件性能的飞速提高和价格的急剧降低,使语音识别技术从实验室走向了市场。

  识别率是语音识别引擎成功与否的关键,为了在电信网络上提高识别率,要有针对性地处理以下问题:

  (1) 回声:在电信系统中,语音传输过程中的回声将极大地影响识别率。要将回声抑制掉,必须在硬件和软件上对信号进行处理。

  (2) 噪声:包括用户环境噪声和系统中的电子噪声,前者需要语音识别引擎软件来处理,后者一般由硬件处理。

  (3) 语音中断:用户不必听完系统播报,可以随时说出新的服务需求,系统将中断播报,并为用户提供新的服务。目前,主流的语音卡都提供了语音中断功能。为达到更好的效果,识别引擎还必须提供专门的接口,以保证两者能够更好地结合。

  2.自然语言处理

  只有提供自然语言识别功能,语音门户的用户才能享受到亲切、快捷的服务。在一些复杂应用中(如查询航班/火车时刻表,股票买卖等),采用自然语言对话,才能发挥出其替代按键的优势。除了识别引擎要具备自然语言理解能力外,在应用开发中也有大量的工作要做。

  自然语音识别技术使计算机能够听懂和理解人的语言,用户不必用固定的语序讲话。系统能够帮助用户明确其需求,并提供准确的服务。系统应该能够听懂自然的语言,并到数据库查询出信息,再播报给用户。对于一些不太规范的语句,系统同样应该听懂,并逐步引导用户,以便向用户提供服务,这才是真正的自然语言识别。目前,有一些承诺提供自然语言识别的系统,往往要求用户一次说清全部需求,这不是真正的自然语言识别,在现实应用中,也是无法使用的。

  3.TTS

  TTS是语音门户中的一个重要技术,它提供了系统向用户输出的语音界面。

  与拼音文字不同,中文的“词”由一个或多个汉字组合而成,如何断词并正确地发音,需要有一个非常大的、及时更新的词库来支持,还需要对上下文进行判断。因此,中文TTS的开发难度要比英文大得多。

  经过长期研究,中文TTS取得了非常大的进步,也有了一些专门支持电信级应用的系统。在现有的技术水平下,TTS能够满足一般的阅读要求。但读时事新闻、电子邮件(尤其是包含许多缩略语和中外文混合的文本)和文学作品时,其效果还不能令人满意。

  要判断TTS的水平,不要用开发商提供的样本,也不要让开发商代劳输入汉字,建议用户随意摘录网上的新闻,直接粘贴到TTS文本窗口中,然后直接进行测试。TTS是给普通用户听的,不是给专家听的,其直观的效果最重要。

流程是人性化服务的保证

  流程设计是质量控制的核心,即使语音识别的准确率再高,也不可能达到100%。因此,设计一个好的流程来帮助和引导用户,并克服语音识别的新问题,是提高语音门户服务质量的核心。同时,一个好的流程,也是为运营商创造价值的基础。

  1.有别于IVR的流程

  受电话按键的束缚,传统的按键信息服务系统(IVR)必须把各种服务分成多层,或者开设多个电话号码。

  (1)新的“层”概念

  由于引入了自然语言识别技术,在语音门户中,“层”被授予了新的内容。它不是一个机械的分类标准,而是帮助用户的导航界面。它将引导新用户一步步接近目标,并帮助老用户直接达到目标。语音门户可以在原有结构的技术上引入语音导航,也可以打破原有结构,建立新的、更适用于语音导航的流程。

  (2)实现任意跳转

  传统的IVR系统中,如果用户通过多次按键,进入了某项服务,就很难访问另一个服务。这时,用户要么必须根据系统提示,逐层返回、逐层进入;要么已经在系统中迷路,无法进入其他路径,只能挂断电话,再次拨入。而语音导航能够听懂用户的需求,可直接跳入另一栏目或服务,不必逐层返回和进入。

  2.语言学处理

  语言是“活”的,因此,语音门户也必须能够灵活地处理用户需求。

  (1)多音词和同义词:系统必须能够自动处理多音词/字和同义词,才能满足不同的客户需求,保证识别率和服务品质。

  (2)无义词:系统必须能够自动过滤没有意义的词/字,减少对用户的约束,提高人机对话的自然度。

  (3)口音适应:中国地域广大,人口众多,方言和口音十分复杂。因此,除为特定区域的用户提供专用的语言引擎外,普通话引擎要适应带有一定口音的用户。系统集成商还需要根据使用情况对系统进行调整,建立自学系统,不断提高系统的识别率。

  3.人性化提示和错误处理

  (1)不同的提示和帮助:要根据不同的情景提供提示和帮助界面,如,有时需要严肃,有时需要活泼。

  (2)人性化引导:要提供人性化的提示和引导,才能发挥语音导航和服务的优势。

  (3)错误处理:在听觉上,机器不如真实的人,不可能有100%的识别率。如何处理错误,让用户理解并愉快地接受,就需要制定错误处理原则并灵活地运用技巧。基本的系统应该对用户没有讲话、用户讲错了话、系统只听懂一部分等现象具有判断能力。

语音门户的弱点

  语音门户不是万能的,它在一段时间内没有得到大面积的普及和推广,是由于其自身尚存在着一些弱点,其中,主要是信息量有限的问题。

  语音门户主要提供语音服务,但听觉能够接收的信息量是有限的,远远小于视觉能够提供的信息量。有些语音服务,如读E-mail、语音上网等,仅仅是应急时的需要,不能替代传统的电子邮件和浏览器。同时,并不是所有的信息发布和服务都适用于语音门户,那些信息量大、更适合视觉浏览的信息就不适用于语音门户。

计算机世界报 2002/01/30



相关链接:
语音合成——灿烂的前景 巨大的商机 2002-01-30
语音合成技术及国内外发展现状 2002-01-30
Evoice有声电子邮件系统 2002-01-30
语音合成系统的关键技术 2002-01-30
语音合成技术应用实例 2002-01-30

分类信息:  语音合成TTS_与_语音识别ASR     技术_语音合成_文摘   技术_语音识别_文摘