声纹识别的模式识别方法_语音识别

声纹识别的模式识别方法

2011/01/05

对于模式识别，有以下几大类方法：

模板匹配方法：利用动态时间弯折(DTW)以对准训练和测试特征序列，主要用于固定词组的应用(通常为文本相关任务)；
最近邻方法：训练时保留所有特征矢量，识别时对每个矢量都找到训练矢量中最近的K个，据此进行识别，通常模型存储和相似计算的量都很大；
神经网络方法：有很多种形式，如多层感知、径向基函数(RBF)等，可以显式训练以区分说话人和其背景说话人，其训练量很大，且模型的可推广性不好；
隐式马尔可夫模型(HMM)方法：通常使用单状态的HMM，或高斯混合模型(GMM)，是比较流行的方法，效果比较好；
VQ聚类方法(如LBG)：效果比较好，算法复杂度也不高，和HMM方法配合起来更可以收到更好的效果；
多项式分类器方法：有较高的精度，但模型存储和计算量都比较大；

　　声纹识别需要解决的关键问题还有很多，诸如：短话音问题，能否用很短的语音进行模型训练，而且用很短的时间进行识别，这主要是声音不易获取的应用所需求的；声音模仿(或放录音)问题，要有效地区分开模仿声音(录音)和真正的声音；多说话人情况下目标说话人的有效检出；消除或减弱声音变化(不同语言、内容、方式、身体状况、时间、年龄等)带来的影响；消除信道差异和背景噪音带来的影响；……此时需要用到其他一些技术来辅助完成，如去噪、自适应等技术。

　　对说话人确认，还面临一个两难选择问题。通常，表征说话人确认系统性能的两个重要参数是错误拒绝率和错误接受率，前者是拒绝真正说话人而造成的错误，后者是接受集外说话人而造成的错误，二者与阈值的设定相关。在现有的技术水平下，两者无法同时达到最小，需要调整阈值来满足不同应用的需求，比如在需要“易用性”的情况下，可以让错误拒绝率低一些，此时错误接受率会增加，从而安全性降低；在对“安全性”要求高的情况下，可以让错误接受率低一些，此时错误拒绝率会增加，从而易用性降低。前者可以概括为“宁错勿漏”，而后者可以“宁漏勿错”。我们把真正阈值的调整称为“操作点”调整。好的系统应该允许对操作点的自由调整。

CTI论坛报道