Nuance Verifier产品概述

2001/12/29

介绍

  Nuance是自然语音接口软件的市场先驱。自然语音接口软件提供通过电话获取信息、服务并进行交易的途径。Nuance将Nuance Verifier 声纹鉴别软件和其核心识别引擎集成在一起,创建语音行业最安全、最具伸缩性、最方便的解决方案。Nuance Verifier 能通过语音识别,对用户语音和以前登记的声纹作比较,同时对用户进行身份校验和鉴别。Verifier 所提供的安全性可与指纹媲美,而无需特殊的设备。在任何时候,用户所需要一部电话,依靠独特的语音便可被安全地鉴别。

  欺诈现象每年使各个公司损失惨重,Nuance Verifier 除了能够防伪外,还避免了记忆密码和PIN(个人身份识别码)的麻烦。为使用各种帐号,顾客不再需要记住不同的密码。很多公司每年为替换PIN需花费成千上万美元。Verifier 完全免除了这项费用。而且,因为用户无需讲出密码,缩短了整个通话时间,降低了需要电话口的数目和整个系统硬件的成本。

  另外,通过同时对特定呼叫者进行识别和鉴别,Nuance Verifier 使各个公司能对顾客的交互进行个性化、提供有效的一对一营销。

  独立的鉴别方案,即使和其它语音识别产品配合,也不能提供Nuance Verifier 的实用性、安全性和性能。

  本文档详述了Nuance Verifier 的主要功能,以及它们如何结合起来,提供最方便、安全和灵活的声纹鉴别解决方案。第二部分对Nuance Verifier 的方便性和实用性功能进行说明。第三部分集中在Nuance Verifier 的核心技术和准确性等方面的内容。最后部分说明Nuance的分布式结构,它保证了关键任务应用的伸缩性和可靠性。

市场要求

应用

  声纹鉴别可用在很多应用系统中来增强保密性。最关注声纹鉴别的部门是金融、电讯、商务和企业安全。原因不言自明:这些市场中的交易和信息比较有价值,容易发生欺诈。

  在金融服务市场,关键应用有:

  在通讯市场,声纹鉴别的应用包括:

  在商业领域,声纹鉴别用于:

  在公司保密领域:

实用性

  这些应用各自代表了对讲话人鉴别技术的不同实用性要求。要作为实用的保密工具并为各种广泛顾客所接受,鉴别方案必须做到:

准确性和安全性

  高准确性和安全性是任何声纹鉴别系统的主要要求。

实施和伸缩性要求

  具有支持大型和关键任务应用的实施路径和软件结构,对鉴别系统至关重要。它必须具有下列能力:

Nuance Verifier™——超越市场要求

  Nuance Verifier 软件满足并超越所有这些市场要求。下列章节详述其主要的功能及其在创建实用、安全和可伸缩的声纹鉴别方案中的应用。

实用性特性

识别和鉴别同步进行

  Nuance是唯一一个将自然语音识别和鉴别集成在同一个软件结构的公司。所以,基于Nuance的应用程序在对同一个语句进行有效的识别和校验方面独树一帜,而且行之有效。Nuance Verifier 在鉴别处理的对话中甚至可使用以前的语音。

  这种高一层次的集成较之单独的鉴别技术更为先进,使声纹鉴别成为与用户对话更高效、结合更紧密的部分。用户的鉴别语音以字典为向导,是获取数据、启动交易的一部分,用户交互更加高效和更加合理。

任何接口均可选择

  对Nuance方案,鉴别使用的密码接口方案或类型都不受限制。各公司可自由选择最适合于应用系统的任何接口;如果以后觉得别的接口更加有效,用户无需选择新的技术提供商即可改变接口。声纹鉴别中的这种灵活性和实用性是前所未有的。下表列出部分Nuance可实现的不同用户接口:

  每个接口需要的登记和测试数据量大多是关于鉴别测试语音差异的函数。例如,不是每个呼叫均改变自定义密码,所以登记很简短,鉴别也是。帐号具有十位数字外加保密随机数字(可进一步防止使用录音),可变性稍为多些。提问短语或背景测试具有更大的语音差异,需要对用户语音作更多的采样。Nuance在为各应用决定最佳用户接口和性能级别这方面具有丰富的专业知识,而软件的灵活性确保了接口设计能符合这些要求。

  对于基于密码的接口,要注意:只有Nuance Verifier 才能灵活地通过以下三种方法创建密码:

  除了实用性优点,并行进行识别和密码校验功能增强了安全性。由于Nuance Verifier 和Nuance识别软件集成,它能对这些接口的密码进行语音识别,不仅确保呼叫者的语音和被授权的用户匹配,而且确保呼叫者知道正确的密码。

辨别欺诈和用户错误

  Nuance紧密集成的语音识别功能使软件能区分用于语音识别的讲话和别的一些背景噪音、或者用户的无意误启动。在这些用户错误的情况下,呼叫者要么清清嗓子、或者对提示做出不恰当的应答,基于Nuance的应用系统能礼貌地重新提示用户,然后才开始声纹鉴别。单独的鉴别技术没有紧密集成的语音识别功能,在多数这些情况下,只能盲目地拒绝进入。

动态决策

  在鉴别处理中,Nuance Verifier 有一定的智能,使应用系统更加实用,同时提高了整体鉴别的准确性。当达到一定置信水平时,该软件能促使应用系统做出鉴别决定,并提示输入更多数据。快速决定对用户的影响最少。与此类似,如果初始鉴别结果不完全是定论,准确鉴别用户的可能性更大。提示输入固定长度语句的办法则会降低实用性和/或安全性。本功能,名为可变长度校验,将在本文档后续部分作更详细的说明。

多语种支持

  Nuance Verifier 支持各种各样的语言,包括美式英语、英式英语、西班牙语、日语、德语、法语、巴西葡萄牙语和瑞典语。另外几种语言,如普通话、广东话和意大利语,今年底将获支持。请和Nuance核对最新支持的语种。对Nuance识别引擎未支持的语言,可通过独立于语言的接口(例如,自定义密码)进行讲话人鉴别。

多用户接入和讲话人鉴别

  对金融服务、电话卡使用、产品订购等很多应用,需要向多个授权用户使用同一账号提供接入服务。Nuance Verifier 通过允许顺序鉴别的方法,让多个用户进入帐户。当其中一个共同帐号持有者使用系统时,Verifier 将其语音与该帐号关连的讲话模型一个接一个地进行比较,直至找到匹配或者所有讲话模型均比较完为止。

  这个功能不仅可提高系统的实用性,而且使公司能将用户交互进行个性化、提供一对一的营销。Verifier 对特定的呼叫者从该帐号的有效用户组中同时进行识别和鉴别,使应用系统或者处理呼叫的代理,能进行服务和推销定位。家庭购物网络正是利用了这个声纹鉴别功能为各呼叫者提供个性化的产品。

应用功能的拓展空间

  即使一个公司的讲话鉴别应用开始时还相对简单,随着时间的推进,逐步增强后,系统的会话能力更加强大,功能更加丰富。Nuance Verifier 对这种功能和实用性的发展预留了空间,无需依靠将来的版本,更不必为了扩充需要而更换技术和软件商。

  现在的Nuance声纹鉴别软件方案能进行安全的会话式交易,并具有最大的伸缩性和准确率。对应用系统的不断发展,Nuance Verifier 将会持之以恒地给予支持。

核心技术和准确率

登记处理

  声纹鉴别包括两个阶段的处理:登记和鉴别。Nuance Verifier 根据用户的数字化语音,通过创建声纹或讲话模型对用户进行登记。讲话模型是用户的语音表达形式,在后续的鉴别测试处理中,用于决定对用户的接受还是拒绝。

  在登记过程中,Nuance Verifier 同时对各个登记语音的一致性进行检查。它确定用户所讲的短语和其他登记语音相比是否正确,并确保用户所有登记语音的发音相当相似。

  讲话模型是一个代表讲话者声音特性的数字矩阵。无需为鉴别保存音频样本。每个讲话模型约占20K的存储量,加密存储在标准数据库中,如ORACLE或ODBC兼容的数据库。由于它们不是音频文件,即使被偷窃,也不能重播,以获得非法进入系统。

鉴别处理

  Nuance Verifier 通过将呼叫者的语音和登记的讲话模型及通过组合其他讲话者创建的冒名顶替者模型进行比较,来鉴别呼叫者。比较后产生一个分值,根据由开发商确定、特定应用软件中设定的阀值和参数,确定用户的语音是否象讲话模型(接受)还是冒名顶替者模型(拒绝)。

  下图说明了Nuance软件的处理流程。语音前端处理后,分类器将讲话者的语音特性和有关的讲话者和冒名顶替者模型进行比较,产生分值。

  应用系统的用户数量对应用的性能没有影响。对不同应用系统和用户数均有是一贯的性能。

准确性基准

  生物统计上的准确性常常在一条映射两种可能校验结果的曲线上进行测量:

  这些错误和两种不同的用户群有关。特别是,比如,0.2%的误接纳率,并不意味着0.2%的呼叫者能闯入系统,而是0.2%的冒名顶替者企图闯入。这比例往往只是呼叫者总数的一个零头。安全性和方便性须得到折衷平衡。当误接纳率接近零时,误拒绝率则上升,反之亦然。曲线上误接受和误拒绝率相等的点叫等错率(ERR)。

  使用Verifier ,用户可在曲线上选取符合其特定应用准确性要求的点。如果,不给系统合法用户造成不便这一点是至关重要的话,那么,可将误拒绝率设低些,但同时却增加了误接纳的可能性。该作用点可根据应用系统的安全需要、实用性要求和实施后的性能分析进行调整。

  当比较生物统计方案的准确性级别时,理解影响准确性的变量至关重要。必须先了解这些变量、所引用的测试与实际处理的接近程度后,才能作性能评估。对声纹鉴别,准确率是下列因素的函数:

 选择的登记/测试方案(例如自定义密码、完全随机数字、半随机数字、背景语音等)

  Nuance公司设立了一个研发小组,专门负责保证Verifier 具有最新的技术、最高的准确率和最具实用性,从在用的系统中获得经验和数据,用于不断进行技术改进。同时,由于Nuance公司具有世界上最多的声纹鉴别用户,它对实用条件下的声纹鉴别拥有丰富的经验。

  下列章节列出Verifier 的主要特性, 这些特性使Verifier 成为目前最准确的声纹鉴别软件。

交叉信道下的性能健壮性

  当用户登记时采用的信道(如电介体电话、碳键、移动电话等)、以及在不同的信道进行校验时,信道不匹配现象对任何声纹鉴别系统均是最具挑战性的。电介体和碳键固定电话听筒的微小差异都会对性能造成影响。而对于大行其道的移动电话,交叉信道在实际应用中也非常普遍。

  Nuance技术擅长处理交叉信道情况。Nuance经过对该领域的精心研究,已经开发出处理这类问题的有效方法,并已获得专利。由于这些技术,Verifier 的性能大大超过其它商业产品及研究机构研制的系统。

可变长度校验

  校验过程中收集的数据量对性能有很大影响。校验过程收集的数据越多,准确性就越高。但是,要求用户每次呼叫时讲话更长会降低系统的实用性,增加呼叫的时间。另外,在多数实用系统中,90%的错误来自10%的呼叫者,因此,难题在于处理10%的难点呼叫者而又不影响其它的90%。

  Nuance Verifier 使用可变长度校验来解决这个矛盾。Verifier 自动检测难点呼叫(由信道或者语音特性引起),并请求额外信息,然后才允许进入。其它呼叫则由一句话可鉴别。

  变长校验所需的校验话语的数量最少,而准确性最高。定长校验则不同,它处理固定数量的话语,然后以此为依据做出决定;变长校验在下列情况下停止对话语进行校验:

  变长校验要求处理的语句更少,而且对有些应用,用一句话可能已经足够鉴别用户。结果提高了方便性、降低了成本,因为呼叫的时间更短了。使用变长校验后平均校验时间减少30%以上。

适应性和个性化

  Verifier 能提供无需监守的在线适应功能,在应用系统使用后,能不断更新讲话模型、更有效地捕捉用户语音特性。利用在线适应功能,一旦讲话者经校验,其讲话将用于丰富其讲话模型。不同背景噪音和不同信道下的讲话者语音特性均被获取。这个功能显著地提高了应用系统的性能,特别是在交叉信道情况下。系统使用越多,性能则越好。使用在线适应功能后可望降低50%的等错率。

  Nuance Verifier 将适应功能这一概念推进了一步,允许对系统的各个用户设置鉴别阀值、然后对阀值进行调节(而不是对实际的讲话模型进行调节)。这样可以在保障系统安全的同时,进行更深程度的个性化和适应能力。

增加安全性的知识校验

  由于集成了语音识别,Nuance Verifier 能根据用户的语音和用户对个人密码和其它信息的了解程度对用户身份进行校验。识别用于理解语音内容,鉴别用于校验讲话者的语音,两者结合起来能提供额外的保密性。

  下图说明了生物统计声纹鉴别和知识校验的结合产生的增强效果。这种集成系统的保密级别由下列因素决定:

(声纹鉴别被误接纳的概率) * (知识校验被误接纳的概率)

  在少数情况下,合法用户可能被生物统计上的校验拒绝,但会被询问个人信息方面。询问的结果用于核准呼叫者的有效性,同时调整讲话模型以改善下次通话的性能。类似地,询问个人信息可防止冒名顶替,因为仅仅根据其语音,他们中的少数还是可能被系统接纳。

经实际使用证明,具有极高的准确性

  Nuance Verifier 的准确性已经被在用中的系统所证实。家庭购物网络(HSN)、Schwab和Mitel等客户现均使用Verifier,为客户提供保密、个性化的交易和信息服务。利用Nuance技术,客户在实际条件下,可取得0.1%以下的误接纳率和95%以上的呼叫成功率。这些均包含了背景噪音、移动电话和交叉信道的情况。这些基准只对纯声纹鉴别,没有知识校验和在线适应功能。前面已经提到,在线适应功能可明显改善性能。

软件实施及其性能

Nuance的客户/服务机软件结构

  Nuance Verifier 可作为Nuance语音识别客户/服务机软件的整体的一个部分。Nuance采取开放、纯软件方案,可在各种操作系统下运行。在实施中,它一般作为交互语音响应(IVR)平台的一个或一组服务器。

  Nuance的客户/服务机体系可靠、可伸缩,对计算资源有最优的利用。下图是Nuance系统体系的概况图。

  和Nuance的识别软件的紧密集成,为同时利用两种技术的应用(如大多数讲话者鉴别应用)提供了最清晰、最具伸缩性和最可靠的系统结构。系统开发商无需为在单一的应用中集成无关联的语音识别和讲话者鉴别方案而对性能、效率和功能作折衷处理。

实施平台选择

  Nuance Verifier 可用于各种IVR平台和操作系统。操作系统包括NT、Unix、Solaris Sparc、UnixWare、HP-UX 和 AIX,IVR平台包括Periphonics、Syntellect、Edify、IBM DirectTalk、Aspect、Prima、Interactive Intelligence、Parity、Intervoice 和 Nuance Base。Nuance公司有全部IVR平台的清单。

实地测试的软件

  Nuance是会话式交易的语音识别和自然语言理解软件的应用先驱,其软件及实施路径是市场上最成熟、最久经考验的。Nuance具有全球最大的声纹鉴别应用用户家庭购物网络。家庭购物网络目前有41万的登记客户, 而且正迅速接近500万。

吞吐量

  Nuance Verifier 对登记和鉴别处理的执行速度大约是实际速度的10倍,从而使用户响应时间和系统伸缩性不会成为问题。

  登记和训练处理过程不存在延迟,呼叫者可立即使用系统。和其它声纹鉴别技术不同的是,Nuance Verifier 在需要时,允许用户在同一个通话中,登记完语音后立即进行校验。除了具有实用性的优点,更显示了Nuance Verifier 的处理效率。

  鉴别测试处理在计算要求方面等效于小词汇量的识别处理,因此可取得相当高的密度。单CPU服务器(Nuance RecServer)支持的具体交易密度是关于很多变量的函数,包括服务器用于执行语音识别的程度、使用的CPU的性能、应用系统的运行周期、实施的测试/登记方案。

讲话模型的存储

  声纹或讲话模型是代表讲话者语音特性的数字矩阵。无需为执行校验存储音频样本。

  讲话模型需要约20K的压缩存储空间。讲话模型加密保存在标准的数据库中。Nuance支持Oracle及兼容ODBC的数据库。由于讲话模型(声纹)保存在独立的数据库中,用户数量增长不受限制。

结论

  为了提供方便、高价值的电子服务,各个公司需要可用、易用和安全的应用方案。他们同时要求这些方案的结构必须灵活、开放和具有伸缩性。Nuance Verifier 是唯一能满足所有这些要求的声纹鉴别解决方案。通过将Nuance Verifier 和Nuance的语音识别软件紧密集成,Nuance公司为保密商务和通讯交易提供了更高的实用性、准确性和更高的性能。

Nuance公司简介

  Nuance公司是自然语音接口软件的佼佼者。使用自然语音接口软件,人们可以通过电话方便安全地获取信息、服务并进行交易。每天,千千万万的人通过拨打运行Nuance公司语音识别、语言理解和声纹鉴别软件的电话,进行出游预订、股票交易、与其它通讯媒体、企业和互联网系统进行交往等活动。美国航空、Bell Atlantic、Charles Schwab、家庭购物网络、Lloyds TSB、Sears、UPS等大公司使用Nuance的软件来为客户提供更好的服务,同时也大幅度降低了成本。Nuance公司是语音商务联盟的发起成员,并领导创建了语音应用程序开发的开放标准。Nuance公司的总部设在加州硅谷的Menlo Park,世界各地均有分部和合作伙伴,提供多语种支持的解决方案。来体验Nuance公司最新的技术吧,请打电话1-888-NUANCE-8或浏览公司的网址www.nuance.com。

NDN - Nuance开发商网络

  Nuance Developer Network (NDN - Nuance开发商网络) 是语音识别行业第一个开发商网络,它向成员提供最新的产品发布信息、培训、在线技术论坛,以及和其它开发商进行想法和方案共享的机会。通过www.nuance.com or extranet.nuance.com 网址,可以下载最新的Nuance产品和工具。

Nuance公司供稿 CTI论坛编辑



相关链接:
Nuance发布Vocalizer 5.0文本语音转换方案 2009-09-04
化繁为简,让手机“一切行动听指挥” 2009-08-13
Nuance语音识别技术助力医学中心节省开支 2009-08-12
Nuance携手IBM提供先进的语音识别解决方案 2009-08-05
Nuance语音识别技术将进军中国 2009-06-17