首页>>>技术>>>语音应用>>>语音识别(ASR)  语音识别产品

电话语音识别系统流程设计

李宏 2003/11/20

  电话语音识别系统为用户提供了一个人性化的界面,人们通过电话-这个最普及的通讯工具,就可以与计算机系统进行交谈,从而能够查询信息、发出控制命令和进行电子商务交易。

1 语音识别系统的特点

  语音识别系统与传统的IVR最根本的区别是:语音识别系统摆脱了电话12个按键的束缚,既简捷方便,又可节省通话时间。

  同时,由于不需记忆编码,语音服务系统可以通过一个特服号提供全部服务,即建立语音门户。不象声讯台,一个节目就要一个号码,既占用了宝贵的号码资源,也很难让用户记住。

  语音识别系统可以提供强大的导航能力,语音识别系统的用户不须在听完冗长的提示语后逐层进入,而是可以直接进入最底层服务,且各栏目之间可以任意进行跳转。尤其是对于老客户,直接进入所需的服务将极大地提高效率并降低通话费用。对于新用户,系统的语音导航会逐步引导用户达到目标。

  一个用户满意的语音识别系统,取决于这个系统是否拥有优良的识别引擎、稳定高效的应用程序、与电信交换网络的完美集成、和人性化的流程控制。流程控制是直接面向用户的界面,它是能否满足用户需求的关键。就像一个网站,让用户迷茫的主页肯定影响访问量。

  合理和友好的流程,才能充分发挥语音识别的优势,为用户提供人性化和个性化的服务。反之,无论技术上多么出色,系统集成如何完美,只要没有向用户提供友好的界面,语音识别系统只会失败。

2 流程设计原则

  语音识别技术的优点和缺点都很突出技术,在应用中必须扬长避短。
  优点:无论何时何地都能使用,操作简便,适用于各层次的用户……
  缺点:识别率不可能达到100%,对没有经验的用户识别率更低……
  即使有更先进的技术,上述缺点也不可能克服,这是因为语音识别率受到各种因素的影响,例如:环境噪声、电信干扰、回声、话路质量、用户讲话习惯等。但是,通过流程设计,就能在最大限度上提高识别率,令绝大多数用户满意。

  简单机械地照搬IVR流程,就会令语音识别系统失去特色,暴露缺点。

原则一:分层合理
  正如IVR系统,语音识别系统同样要分层。分层的目的在于:用户并不容易记住各个栏目名称,所以每层的栏目不要太多,以5、6个为宜。很难想象用户能够记住并说出10个栏目。特别是第一层主目录,绝对不可超过这个限度,否则用户将没有信心使用系统。

  对于语音门户,内容会很多,每层只有几个栏目会使整个系统结构过于复杂,在一些用户比较熟悉的层次里,可以放宽这一约束,进行综合平衡。

原则二:标准和明确的提示语
  用户通过提示语了解系统的服务和功能。提示语必须简明,并且不能引起用户的歧义。过于广告化和文学化的词语只会误导用户,例如:"投石问路"就不如"位置服务"更容易让用户理解。

  同时,提示语的字数要限制在3-4个字。太长,用户容易说错;太短,系统不容易识别。

原则三:跨层和跳转
  跨层:用户不必逐层进入栏目,只要说出最底层栏目,就能跨层进入。
  跳转:各栏目之间可以任意跳转,不必逐层返回。
  回主目录:用户在系统中一旦"迷路",一句"回主目录"就会被带到系统入口。

原则四:用户帮助
  每一层,都必须有这一层的"帮助"。"帮助"中将更详细地向用户介绍内容和使用方法,这样各层的提示语才能简明扼要。"帮助"和提示语是互相补充的。

原则五:完美地完成会话
  语音识别受各种因素影响,识别率不会达到100%,用户也可能不知道该说什么,而放弃使用。因此,在流程设计上必须帮助用户完成整个会话流程。

  首先,通过帮助和简洁的提示,引导用户正确说出词汇。

  还要提供按键选择,在语音识别不能工作时,帮助用户完成整个会话流程。按键作为备份方案是语音识别系统中绝对不能缺少的。

原则六:柔性的系统
  用户可能不会说出系统规定的关键词。因此,语音识别系统必须有弹性,只要意思相近,系统都应该能够识别。

原则七:标准化引导设计
  为保证整个系统的一致性,引导提示语必须标准化,例如:返回、主目录、上一层……,同时,特殊功能键(#,*)也必须统一定义。

  从本质上讲,流程设计是一个心理学问题,合理的流程要在设计和实践中不断的优化。应该专门设立流程设计小组,设计流程和监督流程的正确性。流程设计和管理是语音识别系统质量管理的关键。这个队伍不一定需要软件工程师,他们应该跳出工程师的思维方式,从用户角度出发考虑问题。

3 基本流程设计

  当用户说出需求后,语音识别系统将处理以下情况:

3.1 系统"听懂",继续流程。这是最好的情况,用户正在享受系统的服务。

3.2 系统没有"听懂",遇到这种情况,要区别处理:

3.2.1 系统没有记录到用户的讲话,没有录音。可能是用户不知道该讲什么,也可能是用户讲话声音太小。此时,系统应该引导用户正确讲出关键词,例如提示用户"请您说……"。如果系统仍然没有录到音,系统就应该提示用户大声说出需求。如果还不能录音,则应该提醒用户按键输入选择了,例如:"XXX请按1,XXX请按2,……帮助请按*,返回主目录请按#"。

3.2.2 系统录音无法同规定的关键词匹配。用户讲错,或者不会使用系统。此时,系统也应该引导用户使出正确关键词。如果用户还不能讲对,系统仍然要在提示一次。第三次则要提醒用户按键了。
3.2.3 系统录音与某个关键词相似,但是没有完全匹配。系统则应该提示用户"您是说XXX吗?",让用户确认。从而提高识别率、体现出系统的友好和人性化。

  好的流程和导航才能能够帮助用户尽快熟悉语音识别系统,让用户喜爱和使用。

4 自然语言对话流程

  自然语言对话是指:用户完全用平常讲话的方式说出需求,语音识别系统则需要根据用户提供的信息理解用户需求,并且满足其需求。在流程设计上,要解决以下问题:

4.1 不考虑用户语序。
4.2 过滤多余的、没有意义的词汇。例如:"我想","那个"……
4.3 提示用户提供完整信息,用户不必重新说出整个长句。

  例如一个航班查询系统中,用户用自然语言查询信息,他要提供的信息有:日期、大约时间、起点、终点、或者航班号。

  用户可以说:"我要查询明天中午从北京到上海的航班",也可以说:"4月10日,12点左右,由北京起飞到上海"。系统应该对词序没有约束,也应该能够处理一些模糊的概念(早上/上午/中午/……),还必须过滤"我要查询"、"的航班"等词汇。

  但是,如果用户说:"北京到上海"。系统则应该询问用户:"请问您要查询哪一天从北京到上海的航班?",用户直接说出:"明天"就可以了。

  系统必须能够提示用户,协助其简便地完成查询条件的设定。

5 其他注意事项

5.1 不同系统的不同风格
  商业系统和娱乐系统的提示语风格是截然不同的。前者要求严肃和简洁,或者则要求轻松和活泼。

  值得注意的是:所有的系统提示语速都应该快一些,要相信用户能够听清提示。冗长和缓慢的提示,会令用户烦躁和失去耐心。

  重复提示用户也会浪费时间,如果没有必要,应该尽量减少反复提示和用户确认。

5.2 提示语
  提示语要简洁,录音音量要大一些。专业的配音人员和录音设备会给用户耳目一新的感受,坚定用户的信心。如果配有背景音乐,效果会出乎你的意料。

  在娱乐系统中,随机切换同一内容不同的提示语,会刺激用户的参与热情。

5.3 帮助
  "帮助"实质上是系统的操作说明,既是系统介绍和使用手册,也是对简洁的提示语的补充。用户通过"帮助",可以更好地理解系统内容和操作方法。

5.4 用户确认
  在一些敏感的场合,如电子交易、电子支付等,必须让用户通过按键进行确认,仅仅通过语音确认是不可靠的!当然,会话也要全程录音。

5.5 同义词的处理
  根据前面提到的柔性设计原则,系统设计时要考虑到同义词、多音字的处理。关键词标准和规范也需要同时建立起来,从而保证系统的识别率。

6 流程管理文档

  语音识别系统要通过质量管理来保证其性能,必须制订严格的管理规范。流程管理的规范化和标准化就更重要。规范化和标准化具体体现在管理文档上,它不仅仅是系统设计和编程的基础,也是系统测试和验收的依据。

  以下流程管理文档是必不可少的:

6.1 系统结构图
  整个系统的流程结构图,包括:分层设计、栏目设计等。

6.2 流程图
  每个模块的详细流程,包括:分支、转点、入口、出口等。


6.3 流程控制图
  流程中每个转点的详细流程处理,包括:错误处理、提示语等。

6.4 关键词表
  整个系统所有的关键词表,包括:通用关键词,各层/各栏目关键词等。

6.5 提示语列表
  整个系统每个提示语的编码,文本,录音文件名等。

  流程设计后,系统的开发、调试、测试、验收都要严格按照以上文档要求进行。系统测试时,要向测试人员提供标准的测试报告和详细测试程序,测试人员应该认真填写测试报告,并将问题及时反馈。

  质量管理流程和测试标准、测试报告不在本文的范围内,不再赘述。


作者联系方式

李宏:glpglp@sina.com

作者供稿 CTI论坛编辑



相关链接:
企业无形的代言人---宇高语音拨号系统 2003-11-20
语音识别酝酿第二次浪潮 2003-09-15
《华尔街日报》:让语音识别软件解放你的手 2003-09-07
综述:得意音通到底是什么企业 2003-08-27
语音应用客户满意度调研 2003-07-29

分类信息:     文摘   技术_语音识别_文摘