东进技术产品总监刘骏：声纹识别技术及其应用

　　由中国领先的信息与通信技术行业网站CTI论坛主办的2017中国呼叫中心及企业通信大会[http://www.ctiforum.com/expo/2017/ccec2017spring/index.html]于3月23日-24日在中国北京隆重召开，本次会议以"塑造未来技术改善沟通体验"为主题。深圳市东进技术股份有限公司产品总监刘骏应邀出席此次会议并发表主题演讲《声纹识别技术及其应用》。

图：深圳市东进技术股份有限公司产品总监刘骏
▲演讲PPT下载，pdf格式
▲【演讲视频】东进技术刘骏：声纹识别技术及其应用

　　刘骏：大家好，我是东进公司产品经理刘骏，今天很高兴能和大家一起共同探讨新技术在行业中的应用，今天我讲的是"声纹识别技术及其应用"。

　　为什么会讲这个主题呢，一是东进技术与清华大学合作，将声纹识别技术应用在了中国建设银行的手机银行业务中，这是将东进技术硬件设备上的研发优势和清华大学在底层算法上的科研优势相结合的一个有益尝试。二是以声纹识别、人脸识别为代表的生物特征识别在近几年特别火，不谈其他的，就我们这个行业而言，可以看到，无论是呼叫中心行业还是通信企业，人工智能应用越来越多了，如我们可以看到智能机器人、语音识别（ASR）等，因此，东进想在生物特征识别技术的应用领域做一些探索。

　　为什么生物特征识别技术近几年特别火呢，我认为有三个原因，第一是技术的进步所带来的发展，第二是应用有强劲的需求，第三是大佬们的推波助澜以及资本的热捧。业内对生物特征识别也普遍持乐观态度，这是权威的国际生物识别集团（International Biometric Group，IBG）在2014年做的《2007-2020全球生物识别技术行业市场规模与预测》，IBG预测，在2020年，全球生物识别技术行业的市场规模将达到250亿美元。

　　生物特征识别技术涵盖指纹、人脸、声纹、瞳孔、掌纹以及静脉纹，每种生物特征识别都有着不一样的技术特性和应用场景，在此我们可以简单比较一下声纹和人脸之间的区别，人脸识别是基于人的生理特征，而声纹识别不仅基于人的生理特征，也是基于人的行为特征。人脸在人的一生中是相对有规律的自然变化，而声音不仅有相对规律的自然变化，也与人后天的生活环境、文化环境相关，具有极强的自然属性和文化属性，不易被仿冒，或者说仿冒的难度比较高。因此，相对人脸识别，声纹识识别更能够应用到远程身份认证领域，声纹识别如果能和现有的基于互联网的客户服务结合，会有更好的应用前景和市场前景。

　　因此，国际生物识别集团在《2007-2020全球生物识别技术行业细分市场规模与预测》中预测，在2020年的250亿美元市场中，指纹排第一，130亿美元，声纹排第二，为56亿美元，人脸排第三，为24亿美元，显然，相比人脸，IBG对声纹识别更乐观一些。

　　需要讲清楚的一点是，声纹识别和语音识别是不一样的，声纹识别是基于发音特征，关注的是你是谁，语音识别基于语义特征，关注的是你说了什么，还有一点是声纹识别有两类，一类是确认，即要证明你是你，一类是是辨认，就是在一堆人中找出你。

　　面向确认的声纹识别应用已经达到了实际商用水平，如司法行业的司法矫正中就用到声纹识别，大家可能不知道，声纹识别早在2010年前后就开始在司法行业中得到应用了。基本流程是这样的，假释人员首先在司法部门进行司法宣告，留下语音，然后给他一个具有LBS功能的手机，在监外服刑期间，司法矫正系统会定期对矫正对象所持手机进行定位，以判断对象是否在规定的地理位置，同时，利用东进Keygoe多媒体交换机对手机进行外呼，通过IVR引导矫正对象进行声纹比对，以判断矫正对象和手机是否分离。目前，这种面向确认的声纹识别技术在司法行业已经达到较高的商用成熟度。还有一个应用就是手机的声纹锁，用声纹来打开你的手机，这种的应用的商用化程度也非常高。

　　而面向辨认的声纹识别技术，我个人认为其商业化还有一段路要走，一个例子是汽车行业的用户满意度调查。汽车4S店将大量的客户访问电话的录音文件交到汽车厂商，为防止4S店作弊，汽车厂商需要将被仿冒的电话给找出来，这就需要通过声纹识别技术来进行，但从目前反馈的情况来看，效果并不理想，这倒不是技术问题，而是和应用场景相关，因为不可能对汽车厂商的客户进行语音预留。

　　我们人类对语音的说话人鉴别是我们人类在几百万年的进化过程中习得而来，与生俱来，而通过机器进行说话人识别跟人类大脑的识别是不一样的。在这个图中，上面两个是声音的波形图，即声音振幅随时间变化的曲线，下面两个是语谱图，即声音在不同频段的能量值大小随时间的变化曲线，上世纪三四十年代，美国的Bell实验室的劳伦斯·科斯塔通过观察语谱图第一次提出了"声纹"的概念；到四十年代至七十年代，同样是Bell实验室的S.Pruzansky提出了基于统计学原理的声纹识别理论，系统地发展了声纹识别理论，理论体系得以初步建立，这一阶段的研究主要集中在特征参数的选择、提取上，相继提出了线性预测倒谱系数、共振峰参数等特征参数；在上世纪七十年代至九十年代，声纹识别技术发展迅速，参数提取上提出了应用较为成熟的梅尔频率倒谱系数（MFCC）模式匹配，并相继出现了矢量量化技术(VQ)、动态时间规整(DTW)、隐马尔科夫模型(HMM)等模式匹配模型；九十年代至今，开始步入实际应用阶段，工作重点是提高声纹识别系统的可靠性和实用性。

　　衡量一个声纹识别效果的重要参数是错误接受率和错误拒绝率，在这个曲线中，错误接受率和错误拒绝率是一个矛盾曲线，即两者不可兼得，因此，业内提出来等错率，目前的声纹识别技术在理想的情况下等错率可以做到低于0.5%，即在1000个的声纹比对中，仅有不到5个的错误接受率和错误拒绝率。

　　声纹识别就目前的应用来说，主要有三个技术难点。

　　一个技术难点就是跨信道。这是在声纹识别中，学习训练通道和识别通道在相同和不同情况下，对等错率的影响，蓝色曲线的同一信道曲线，红色曲线是跨信道曲线，可以看到，跨信道的等错率几乎到了20%，那么在实际应用中，我们该怎么去解决这问题呢，特别是技术水平相对稳定的情况下该怎么解决这个问题？

　　我们的做法是结合应用场景，尽量使训练学习通道和识别通道都用同一个信道，尽量避免跨信道。这是一个驾校管理系统方案，为防止驾校侵占学员的学时，需要对学员进行身份认证，现在的认证方法是学员IC卡读取和指纹识别，学员通过教练车载终端进行登录，现在将声纹识别技术引入进来，如果学员报名时在报名处通过宽带接入网进行声纹预留，在教练车上通过车载终端和3G网络通道进行识别时，就会影响实际的识别效果，我们提出的解决方案是，在报名时，学员下载APP后就通过移动宽带网络进行语音预留，在教练车上，车载终端仅下发动态码，学员仍然通过自己的手机利用移动宽带网络通道进行识别，这样就能显着提高识别率。

　　第二个技术难点是错误识别。做到百分之百的正确识别是不现实的，但我们可以利用等错率曲线，根据业务应用场景，通过参数配置，有针对性地提高或降低错误拒绝率或错误接受率，使之符合实际的应用场景。举个例子，如果安全性较高的应用场景，如大额转账，我就将参数配置在这个区域，即较低的错误接受率和较高的错误拒绝率，牺牲便利性突出安全性，相信客户在进行大额转账时，应该是能够忍受一定的不方便而获得较高的安全性。当声纹识别用于手机解锁时，我们可以调整参数，使之工作低错误拒绝率和高错误接受率这个区域，提供较好的方便性，因为手机在大多数情况下都在我们身边，谁也不会没事就拿着手机找人家闯入。

　　第三技术难点就是假体攻击。就指纹的假体攻击，据说淘宝上卖一个指纹只需要十几块钱，今年315晚会上，针对人脸识别的假体攻击也让人脸识别火了一把。就声纹识别而言，常见的假体攻击就是录音以及录音的拼接，从理论上讲，通过录音文件进行闯入是存在可能性的。对录音及录音拼接，我们的解决方案是动态码，即下发一个随机的8位数的数字，通过对这个动态码的识别来进行身份验证，提高了系统识别率和安全率，这也是我们为中国建设银行的手机银行的远程身份认证提供的解决方案。

　　中国建设银行的手机银行业务，其远程身份认证的大致流程是这样的，大家请看这个图，首先是手机客户端发起验证请求，银行业务系统调用东进的声纹验证机接口获取ID和文本，以获得随机产生的ID和文本，然后将文本解码并发送给手机银行客户端，手机银行客户端读出文本，并将录音发给银行业务系统，银行业务系统收到录音后调用声纹验证机接口上传用户语音，声纹验证机返回声纹验证结果给银行业务系统，银行业务系统将验证成功或失败接口发给手机银行客户端。这就是我们现在向中国建设银行提供的面向移动互联网的声纹识别+动态口令的远程身份认证解决方案。

　　面向金融和支付领域的声纹识别技术应用，目前一个行业问题就是，能否将声纹识别正式作为远程身份认证的一个正式手段纳入到相应的业务环节，不过有两个动向使我们对此很乐观。一个是，去年中国人民银行发布《关于推动移动金融技术创新健康发展的指导意见》中，要求银行和清算机构提供手机等移动金融服务时，应使用可靠的多因素身份认证方式，多因素身份认证中就有声纹、人脸等选项；另外一个动向是，中国人民银行金融标准委员会正在组织起草《手机银行中基于声纹识别的增强安全应用技术规范》，目前正在征求意见阶段，预计不久的将来，该规范将正式作为中国金融行业的一个正式标准，指导金融行业在声纹识别技术的规范应用，相信能促进声纹识别市场的良性发展。

　　最后做一个广告，这是东进FV-1000声纹验证机，是东进硬件设备上的研发优势和清华大学在底层算法科研优势结合的一个有益尝试。就设备本身而言，行业内的朋友都知道，东进在硬件设备的研发设计和生产制造上拥有超过20的创新历史，设备以高可靠、高稳定、高性能和高灵活度的特点获得了产业链上各个环节的高度认可。目前这台FV-1000所搭载的声纹识别算法不仅能通过灵活的参数配置来适应不同的应用场景，还具有防录音和防录音拼接功能，而且能够进行自我学习，适应人类声音的自然变化。另外，从声纹识别技术应用的系统架构上看，东进FV-1000声纹验证机处在系统架构较低层的接入层和支持层，并对上层应用提供应用开发接口，应用开发接口完全基于Web Service，这也体现了东进一贯坚持的产业链合作的经营理念，东进愿意与合作伙伴一起，共同打造基于（移动）互联网的远程身份认证解决方案，探索生物特征识别技术在更广泛行业中的应用。

　　总而言之，技术的进步和应用需求使我们进入了生物特征识别产业高速发展的增长期，而要获得持续的市场增长，就需要我们在技术及其应用上进一步去探索与突破，除此之外，生物识别技术的应用还存在一些安全和隐私问题，除了技术需要进一步提升外，行业还要制定相关的标准和规范，甚至国家在法律层面还需要制定相应的法律和法规，以明晰可能存在的风险，让我们在基础研究、技术开发、行业应用等方面共同努力，以更好的产品和服务迎接生物特征识别市场收获季节的到来。

　　谢谢大家！

评论排行

推荐阅读

专题

大家都在看