CTI论坛: 得意音通公司国际领先的语音与语言技术

得意音通公司国际领先的语音与语言技术

2003/11/25

　　语音和语言处理涉及的技术包括很多方面。简单地讲有：(1)语音识别(ASR)：把声音变成文字(相当于耳朵的功能)；(2)语言理解(NLU)：把文字变成语义(相当于大脑之语言区的功能)；(3)语音合成(TTS)：把文字变成声音(相当于嘴巴的功能)；(4)声纹识别(VPR)：通过声音对人的身份进行辨认和/或确认(耳朵的功能)；……

　　得意公司是国内第一家拥有全部自主知识产权的、汉语语音识别与理解技术的生产商，与国际、国内的相近的技术相比，我们的技术包含了自动语音识别、自然语言理解和声纹身份鉴证三大技术，具有先进性高、性能好、成本，是相关技术和应用领域的佼佼者。全面支持多种的语音和数据设备、不同的语音和数据网络。

　　得意公司有三大技术方向：自动语音识别（ASR）、自然语言理解（NLU）和声纹识别（VPR）。

　　由此核心技术，得意公司现阶段专注于六大应用方向：得意输入法、得意命令、得意关键词检出器、得意身份证、得意教师和得意分析器。

　　相应地，得意公司有如下的应用编程接口(API)和软件开发工具(SDK)：

　　公司核心技术概述－－三大技术方向:

　　公司核心技术概述－－六大应用方向:

　　得意技术关系图:

一、"得意"自动语音识别技术

　　(1) 非特定人：说话人不限年龄、性别、口音，只要基本上是说普通话即可；
　　(2) 连续语音：能够识别连续语音。
　　(3) 关键词检出：能够从用户所说的句子中检出其中的关键词，如名字和地点等信息从而准确地识别通话的内容。
　　(4) 高识别率：对固定电话、手机电话等均能准确地识别，正确识别率高达99％以上。
　　(5) 实时的语音识别：优化设计的识别引擎使得"得意"语音监听平台能够实时地进行电话监控等动作。
　　(6) 与硬件无关：识别引擎不需要引入额外的硬件即可实时处理语音流。与硬件无关的特性使得用户可以基于任何电话交换机构建自己的语音监听系统。

得意公司设计的语音识别监听系统具有以下优点：
　　(1) 系统的灵活性：交互式语音平台提供了流程开发工具，可根据业务需要编写业务流程，以满足用户的需求，其网络系统能支持多种操作系统平台。
　　(2) 系统的可维护性：系统运行的各个参数，可根据业务需要及时调整，方便管理。
　　(3) 系统的可扩展性：系统具有模块化特点，系统的运营者可方便实现系统的平滑升级，同时也大大地简化了系统的维护管理。
　　(4) 优良的性价比：系统能节省过多的人员配备，又能节省运行成本，更可为用户提供低成本的、独特的、二十四小时自动的识别和监听服务。

　得意音通公司是自然语音接口软件的技术先驱。自然语音接口技术提供通过电话获取信息、实现控制的重要手段。

二、"得意"声纹识别技术

　　所谓声纹(Voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异。每个人的语音声学特征既有相对稳定性，又有变异性，不是绝对的、一成不变的。这种变异可来自生理、病理、心理、模拟、伪装，也与环境干扰有关。尽管如此，由于每个人的发音器官都不尽相同，因此在一般情况下，人们仍能区别不同的人的声音或判断是否是同一人的声音。

　　"得意"声纹识别软件能通过语音识别，对用户语音和以前登记的声纹作比较，同时对用户进行身份校验和鉴别。得意公司所提供的安全性可与指纹媲美，而无需特殊的设备。在任何时候，只需要通过电话或者其他任何的采音手段，监控对象便可被安全地鉴别。

1、"得意"声纹识别技术的特征：

　　1) 对声纹的识别与所说的文本和语言无关性。用户训练系统和系统对用户的声音进行鉴别和确认，可以是完全不同的文本，完全不同的语言。比如，在用户登记时使用的语音是一段中文的文学章节，而识别时可以是用英文谈论计算机的发展方向。
　　2) 对语音样本长度没有特殊要求。初次采集时，系统只需要3秒种以内的声音就能记住监控对象的声纹；而在识别时，系统只要获得监控对象几秒的声音，就可以进行声纹识别，并可不断累积调整声纹模型精度；
　　3) 很高的精度。"得意"声纹识别技术的辨认和确认准确度都很高，说话人辨认的正确率不小于99%；说话人确认的误识率和误拒率均低于1%；
　　4) 操作点调整方便：根据"准确率＋不确定率＋错误率＝100%"，可按不同的应用需求调整操作点阈值，使最终准确率达到最高或使错误率降到最低。
　　5) 声纹模型存储空间小：每个人的声纹模型存储空间小于5KB。

2、"得意"声纹识别技术的优点：

1）实用性
　　这些应用各自代表了对讲话人鉴别技术的不同实用性要求：
· 提供高效而方便的接口。
· 提供灵活的登记和校验接口，能和各种应用系统的要求相配套。

2）准确性和安全性
　　高准确性和安全性是任何声纹鉴别系统的主要要求。
· 系统必须在实际使用条件下运行：呼叫者可能在各种环境下使用系统，经常有大量背景噪音，使用各种不同类型的电话，包括移动电话。
· 不管通讯的流量和类型如何，应用系统的性能必须保持一致。

3）实施和伸缩性要求
　　具有支持大型和关键任务应用的实施路径和软件结构，对鉴别系统至关重要。它必须具有下列能力：
· 能与主要的IVR（交互性语音响应）平台集成
· 通过一个开放的、纯软件方案进行实施，并能经得起实际应用的考验
· 有效率、可伸缩，适用于非常大型的呼叫中心和高呼叫量要求
· 可靠、容错，适用于关键任务的应用
· 作为应用整体方案的一个部分，包括应用的语音接口。

4）识别和鉴别同步进行
　　得意公司成功地将自然语音识别和鉴别集成在同一个软件结构。所以，基于得意公司语音技术的应用程序在对同一个语句进行有效的识别和校验方面独树一帜，而且可靠实用。这种高一层次的集成较之单独的鉴别技术更为先进，使声纹鉴别成为与监控系统更高效、结合更紧密的部分。

5）任何接口均可选择
　　对得意公司方案，鉴别使用的密码接口方案或类型都不受限制。各系统可自由选择最适合于应用系统的任何接口；如果以后觉得别的接口更加有效，用户无需选择新的技术提供商即可改变接口。
　　对于基于密码的接口，得意公司能灵活地通过以下三种方法创建密码：

· 用户可简单地通过讲出选择的密码，进行密码的语音登记。
· 用户可使用文本登记的密码（例如通过互联网浏览器键入的密码，或用户数据库中已经存在的密码用于进入其他系统）
· 可在登记时由服务提供商为用户或用户组指定一个密码。

　　除了实用性优点，并行进行识别和密码校验功能增强了安全性。由于"得意"声纹识别软件和"得意"语音识别软件集成，它能对这些接口的密码进行语音识别，不仅确保呼叫者的语音和被授权的用户匹配，而且确保呼叫者知道正确的密码。

6）动态决策
　　在鉴别处理中，"得意"声纹识别技术有一定的智能，使应用系统更加实用，同时提高了整体鉴别的准确性。当达到一定置信水平时，该软件能促使应用系统做出鉴别决定，并提示输入更多数据，快速决定对系统的影响最少。

7）应用功能的拓展空间
　　即使一个公司的讲话鉴别应用开始时还相对简单，随着时间的推进，逐步增强后，系统的会话能力更加强大，功能更加丰富。"得意"声纹识别技术对这种功能和实用性的发展预留了空间，无需依靠将来的版本，更不必为了扩充需要而更换技术和软件商。

8）适应性和个性化
　　"得意"声纹识别技术能提供无需监守的在线适应功能，在应用系统使用后，能不断更新讲话模型、更有效地捕捉用户语音特性。利用在线适应功能，一旦讲话者经校验，其讲话将用于丰富其讲话模型。不同背景噪音和不同信道下的讲话者语音特性均被获取。这个功能显著地提高了应用系统的性能，特别是在交叉信道情况下。系统使用越多，性能则越好。

　　"得意"声纹识别技术将适应功能这一概念推进了一步，允许对系统的各个用户设置鉴别阀值、然后对阀值进行调节（而不是对实际的讲话模型进行调节）。这样可以在保障系统安全的同时，进行更深程度的个性化和适应能力。

三、"得意"中文自然语言理解技术
　　自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。NLU是自然语言理解(Natural Language Understanding)的缩写。

（1）相对于规范语言，对自然语言的理解具有更大的难度。
·这是因为自然语言包含大量的口语语言现象，诸如：省略、指代、更正、重复、强调、倒序等等。
·涉及到语音的口语对话系统将还包括噪音、含混不清、口头语、吃音、音变等等口语语音现象。
（2）相对于基于关键词的技术，语言理解技术的优势是：
·直接。在信息查询时，用户可以不必进行多级菜单的选取而直奔主题。
·灵活。用户查询不必严格按照某些"关键词"进行询问，只要用户的叙述在"语义"上与要查询的一致。

　　用自然语言与计算机进行通信，这是人们长期以来所追求的。因为它既有明显的实际意义，同时也有重要的理论意义：人们可以用自己最习惯的语言来使用计算机，而无需再花大量的时间和精力去学习不很自然和习惯的各种计算机语言；人们也可通过它进一步了解人类的语言能力和智能的机制。

　　一个中文文本从形式上看是由汉字（包括标点符号等）组成的一个字符串。由字可组成词，由词可组成词组，由词组可组成句子，进而由一些句子组成段、节、章、篇。无论在上述的各种层次：字（符）、词、词组、句子、段，……还是在下一层次向上一层次转变中都存在着歧义和多义现象，即形式上一样的一段字符串，在不同的场景或不同的语境下，可以理解成不同的词串、词组串等，并有不同的意义。一般情况下，它们中的大多数都是可以根据相应的语境和场景的规定而得到解决的。也就是说，从总体上说，并不存在歧义。这也就是我们平时并不感到自然语言歧义，和能用自然语言进行正确交流的原因。但是一方面，我们也看到，为了消解歧义，是需要极其大量的知识和进行推理的。如何将这些知识较完整地加以收集和整理出来；又如何找到合适的形式，将它们存入计算机系统中去；以及如何有效地利用它们来消除歧义，都是工作量极大且十分困难的工作。

　　从目前的理论和技术现状看，通用的、高质量的自然语言处理系统，仍然是较长期的努力目标，但是针对一定应用，具有相当自然语言处理能力的实用系统已经出现，有些已商品化，甚至开始产业化。典型的例子有：种数据库和专家系统的自然语言接口、各种机器翻译系统、全文信息检索系统、自动文摘系统等。

　　"得意"语义分析器技术是特定领域的汉语自然语言理解的分析器。该技术可以为网络信息服务带来革命性的理念和崭新而实用的应用。

·可在互联网络上用于理解用户的问题，根据理解结果实现相应的服务；
·也可在无线互联网络或电话网络上用于与用户进行语音对话。

　　"得意"语义分析器技术可以用在诸如电话、手机、无线通讯等没有键盘可以输入文本的地方，进行智能查询、信息获取等。根据具体的应用领域，如航班查询和定票、导游、天气查询、股票查询和交易等，进行定制。

　　(1) 基于文本的对话。系统的输入和输出都是文本而不是语音。可以用在诸如Internet等上面进行智能查询、信息获取等。

　　(2) 基于语音的对话。系统的输入和输出都是自然语音。可以用在诸如电话、手机、无线通讯等没有键盘可以输入文本的地方，进行智能查询、信息获取等。

"得意"语义分析器技术--d-Ear Parser Technologies

技术特点：
　　(1) 上下文相关理解：系统在理解当前语句时可以联想用户以前所说的话，进行综合分析，因此即使有时用户所说的话有一定的省略，系统照样可以理解；
　　(2) 话题可以自由变换：目前有一些系统，对话往往只能局限于某一个话题，一旦用户变换话题，系统将无所适从；我们的系统允许用户在多个话题之间不断转换，系统照样可以记住以前的谈话内容，比如用户在问航班起飞时间时，突然问目的地与本地的时差，然后再确认要先前询问的航班，在我们的系统中很容易解决；
　　(3) 混合主导：现有系统常常是系统只能等用户发问，如果用户根本不知道问什么，那么系统将一直待机等待；而我们的系统对其进行了改进，如果用户询问的信息足够，那么系统直接回答问题，而如果用户询问的信息不全或者用户迟疑太久，那么系统则主动询问来获取足够的信息。

得意音通公司供稿 CTI论坛编辑