声纹识别听声辨人_语音识别

声纹识别听声辨人

北京大学信息科学中心视觉与听觉信息处理国家重点实验室吴玺宏

2001/08/23

　　近年来，在生物识别技术领域中，声纹识别技术以其独特的方便性、经济性和准确性等优势受到世人瞩目，并日益成为人们日常生活和工作中重要且普及的安全验证方式。

　　声纹识别属于生物识别技术的一种，是一项根据语音波形中反映说话人生理和行为特征的语音参数，自动识别说话人身份的技术。与语音识别不同的是，声纹识别利用的是语音信号中的说话人信息，而不考虑语音中的字词意思，它强调说话人的个性;而语音识别的目的是识别出语音信号中的言语内容，并不考虑说话人是谁，它强调共性。

历史与现状

　　对声纹识别的研究始于20世纪30年代。早期的工作主要集中在人耳听辨实验和探讨听音识别的可能性方面。随着研究手段和工具的改进，研究工作逐渐脱离了单纯的人耳听辨。Bell实验室的L.G. Kesta目视观察语谱图进行识别，提出了“声纹(voiceprint)”的概念。之后，电子技术和计算机技术的发展，使通过机器自动识别人的声音成为可能。Bell实验室的S. Pruzansky提出了基于模式匹配和概率统计方差分析的声纹识别方法，而引起信号处理领域许多学者的注意，形成了声纹识别研究的一个高潮，其间的工作主要集中在各种识别参数的提取、选择和实验上，并将倒谱和线性预测分析等方法应用于声纹识别。

　　70年代末至今，声纹识别的研究重点转向对各种声学参数的线性或非线性处理以及新的模式匹配方法上，如动态时间规整、主成分分析、隐马尔可夫模型、神经网络和多特征组合等技术。如今，声纹识别技术已逐渐走入实际应用，AT&T应用声纹识别技术研制出了智慧卡(smart card)，已应用于自动提款机。欧洲电信联盟在电信与金融结合领域应用声纹识别技术，于1998年完成了CAVE (Caller Verification in Banking and Telecommunication) 计划，并于同年又启动了PICASSO(Pioneering Call Authentication for Secure Service Operation) 计划，在电信网上完成了声纹识别。同时，Motorola和Visa等公司成立了V-commerce联盟，希望实现电子交易的自助化，其中通过声音确定人的身份是此项目的重要组成部分。其他的一些商用系统还包括：ITT公司的SpeakerKey、Keyware公司的VoiceGuardian、T-NETIX公司的SpeakEZ等。

　　国内开展声纹识别研究比较早的机构有北京大学、中科院声学所、中科院自动化所、清华大学等，并先后得到了国家自然科学基金重大和重点项目、攀登计划等基金的支持，取得了丰硕的研究成果。

说话人识别系统的典型结构图

物理基础

　　语音是由发声器官运动产生的。发声器官包括喉、声道和嘴。气流通过喉中的声门，引起声带的周期性振动，形成周期性的脉冲串并进入声道，周期性脉冲的周期称为基音周期。气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向外辐射，其间的传输通道称为声道。声道是具有某种谐振特性的腔体，当气流通过时，输出的气流频率特性，即声门脉冲串的特性，取决于声道的特性。嘴的作用是完成气流的向外辐射，嘴张开时的形状对语音频谱有影响，但较声道次之。

　　发声的器官和过程确定了语音中特定说话人信息的形式，其中声道的形状是最重要的生理因素。另外，发声的习惯，包括发声速度、韵律和口音构成了语音中特定说话人信息的后天行为因素。语音中的特定说话人信息构成了声纹识别的物理基础。

技术原理

　　基于不同的应用环境，声纹识别分为说话人辨识和说话人确认。说话人辨识是指识别说话人是否已经注册，是哪一个注册人；说话人确认是指识别说话人的身份与其声明的是否一致。

　　用户在使用声纹识别系统时，需要向系统提供一段语音，根据发音材料，可分为文本有关(text-dependent)和文本无关(text-independent)两种。与文本有关的识别系统要求用户按照规定的内容发音，并根据特定的发音内容建立精确的模型，从而达到较好的识别效果，但系统需要用户配合，如果用户的发音与规定的内容不符合，则无法正确识别该用户。而与文本无关的识别系统则不规定说话人的发音内容，因而要建立精确的模型较为困难，识别效果较差。另外，与其他生物识别技术类似，若考虑待识别的说话人是否在注册的说话人集合内，则说话人辨识分为开集(open-set)辨识和闭集(close-set)辨识，显而易见，闭集辨识的结果要好于开集辨识，但开集辨识与实际情况更为一致。

　　无论是与文本有关还是无关，系统都面临一个共同的问题，即无法区分一个发音是现场发音还是录音回放。但文本提示的说话人识别系统可以有效地防止这种情况发生。具体实现时，可采用随机或其他方法来生成提示文本，如随机的数字串，以使假冒者无法事先录音。

　　文本有关声纹识别系统的一种典型结构如图所示，它包括训练和识别两个阶段。训练时，每个说话人重复一定次数的发音，然后检测并分析每次发声的语音段，以提取特征，并利用动态时间规整技术，在时间上对齐特征序列且多次平均，形成每个说话人的参考模板。识别时，对语音信号进行特征分析，然后计算与参考模板的距离，选取其中的最小值作为结果输出。说话人确认系统则是计算待识特征与声明说话人模板的距离，并与设定的阈值比较，若高于阈值则拒绝判决，低于阈值则接受判决。

　　声纹识别系统主要包括两部分，即特征检测和模式匹配。特征检测的任务是选取唯一表现说话人身份的有效且稳定可靠的特征，模式匹配的任务是对训练和识别时的特征模式做相似性匹配。

1．特征提取

　　声纹识别系统中的特征检测即提取语音信号中表征人的基本特征，此特征应能有效地区分不同的说话人，且对同一说话人的变化保持相对稳定。考虑到特征的可量化性、训练样本的数量和系统性能的评价问题，目前的声纹识别系统主要依靠较低层次的声学特征进行识别。说话人特征大体可归为下述几类：

　　谱包络参数语音信息通过滤波器组输出，以合适的速率对滤波器输出抽样，并将它们作为声纹识别特征。

　　基音轮廓、共振峰频率带宽及其轨迹这类特征是基于发声器官如声门、声道和鼻腔的生理结构而提取的参数。

　　线性预测系数使用线性预测系数是语音信号处理中的一次飞跃，以线性预测导出的各种参数，如线性预测系数、自相关系数、反射系数、对数面积比、线性预测残差及其组合等参数，作为识别特征，可以得到较好的效果。主要原因是线性预测与声道参数模型是相符合的。

　　反映听觉特性的参数模拟人耳对声音频率感知的特性而提出了多种参数，如美倒谱系数、感知线性预测等。

　　此外，人们还通过对不同特征参量的组合来提高实际系统的性能，当各组合参量间相关性不大时，会有较好的效果，因为它们分别反映了语音信号的不同特征。

2．模式匹配

　　目前针对各种特征而提出的模式匹配方法的研究越来越深入。这些方法大体可归为下述几类：

概率统计方法

语音中说话人信息在短时内较为平稳，通过对稳态特征如基音、声门增益、低阶反射系数的统计分析，可以利用均值、方差等统计量和概率密度函数进行分类判决。其优点是不用对特征参量在时域上进行规整，比较适合文本无关的说话人识别。

动态时间规整方法

说话人信息不仅有稳定因素（发声器官的结构和发声习惯），而且有时变因素（语速、语调、重音和韵律）。将识别模板与参考模板进行时间对比，按照某种距离测定得出两模板间的相似程度。常用的方法是基于最近邻原则的动态时间规整DTW。

矢量量化方法

矢量量化最早是基于聚类分析的数据压缩编码技术。Helms首次将其用于声纹识别，把每个人的特定文本编成码本，识别时将测试文本按此码本进行编码，以量化产生的失真度作为判决标准。Bell实验室的Rosenberg和Soong用VQ进行了孤立数字文本的声纹识别研究。这种方法的识别精度较高，且判断速度快。

隐马尔可夫模型方法

隐马尔可夫模型是一种基于转移概率和传输概率的随机模型，最早在CMU和IBM被用于语音识别。它把语音看成由可观察到的符号序列组成的随机过程，符号序列则是发声系统状态序列的输出。在使用HMM识别时，为每个说话人建立发声模型，通过训练得到状态转移概率矩阵和符号输出概率矩阵。识别时计算未知语音在状态转移过程中的最大概率，根据最大概率对应的模型进行判决。HMM不需要时间规整，可节约判决时的计算时间和存储量，在目前被广泛应用。缺点是训练时计算量较大。

人工神经网络方法

人工神经网络在某种程度上模拟了生物的感知特性，它是一种分布式并行处理结构的网络模型，具有自组织和自学习能力、很强的复杂分类边界区分能力以及对不完全信息的鲁棒性，其性能近似理想的分类器。其缺点是训练时间长，动态时间规整能力弱，网络规模随说话人数目增加时可能大到难以训练的程度。

　　把以上分类方法与不同特征进行有机组合可显著提高声纹识别的性能，如NTT实验室的T. Matsui和S. Furui使用倒谱、差分倒谱、基音和差分基音，采用VQ与HMM混和的方法得到99.3%的说话人确认率。

　　对于说话人确认系统，表征其性能的最重要的两个参量是错误拒绝率和错误接受率。前者是拒绝真实的说话人而造成的错误，后者是接受假冒者而造成的错误，二者与阈值的设定相关。说话人确认系统的错误率与用户数目无关，而说话人辨认系统的性能与用户数目有关，并随着用户数目的增加，系统的性能会不断下降。

　　总的说来，一个成功的说话人识别系统应该做到以下几点：

能够有效地区分不同的说话人，但又能在同一说话人语音发生变化时保持相对的稳定，如感冒等情况。
不易被他人模仿或能够较好地解决被他人模仿问题。
在声学环境变化时能够保持一定的稳定性，即抗噪声性能要好

声纹识别应用前景

　　与其他生物识别技术，诸如指纹识别、掌形识别、虹膜识别等相比较，声纹识别除具有不会遗失和忘记、不需记忆、使用方便等优点外，还具有以下特性：

用户接受程度高，由于不涉及隐私问题，用户无任何心理障碍。
利用语音进行身份识别可能是最自然和最经济的方法之一。声音输入设备造价低廉，甚至无费用（电话），而其他生物识别技术的输入设备往往造价昂贵。
在基于电信网络的身份识别应用中，如电话银行、电话炒股、电子购物等，与其他生物识别技术相比，声纹识别更为擅长，得天独厚。

　　由于与其他生物识别技术相比，声纹识别具有更为简便、准确、经济及可扩展性良好等众多优势，可广泛应用于安全验证、控制等各方面，特别是基于电信网络的身份识别。

　　比尔·盖茨认为：“以人类生物特征（指纹、语音、脸像等）进行身份验证的生物识别技术，在今后数年内将成为IT产业最为重要的技术革命。”

　　在世界范围内，声纹识别技术正广泛应用于诸多领域。截止到去年初，声纹识别产品的市场占有率为15.8%，仅次于指纹识别和掌形识别。目前，我国市场尚属启动阶段，其发展空间更为广阔，在金融、证券、社保、公安、军队及其他民用安全认证等行业和部门有着广泛的需求。

1．用于银行、证券系统

　　随着电话银行、远程炒股等业务的不断增加，这些业务对用户所做的身份认证只是采用密码方式，其安全性令人担忧。如果采用说话人确认技术并结合原来的密码，可安全有效地实现用户身份的确认，这对用户来说并没有增加任何负担。

2．为网络安全出力

　　现在人们越来越多地依赖于口令和密码，随着不同场合的频繁应用其缺陷越发明显。在声纹识别过程中，每次发音都由随机产生的提示文本来控制，可有效地防止复制和剽窃，可以说，声纹识别技术与其他生物识别技术相比有着明显的优势，可以为日益发展的电子购物、电子商务、国际贸易保驾护航，且操作方便、简洁，很容易为广大计算机使用者接受。

3．为破案立功

　　对于各种电话勒索、绑架、电话人身攻击等案件，声纹识别技术可以在一段录音中查找出嫌疑人，帮助对嫌疑人的查证。在美国，有关机构还利用这一技术来判断监外执行人员是否在其寓所中。

4．在军队安全系统中的应用

　　声纹识别技术可以辨认出电话交谈过程中是否有关键说话人出现，继而对交谈的内容进行处理。另外，在通过电话发出军事指令时，可以对发出命令的人的身份进行确认。

《计算机世界》2001/08/23