黄鹂智能刘志：智能化背景下语音前端技术的新挑战

　　由CTI论坛(www.ctiforum.com)主办的2021中国呼叫中心及企业通信大会[http://www.ctiforum.com/expo/2021/ccec2021spring/index.html]于4月15日在北京辽宁大厦成功召开。本次会议以“5G时代共筑企业通信云生态”为主题。深圳黄鹂智能科技有限公司CEO 刘志应邀出席此次会议并发表题为《智能化背景下语音前端技术的新挑战》的主题演讲。随着5G、人工智能和物联网的发展，叠加疫情对人类生产生活方式的影响，声音通信和交互的重要性不断凸显。但复杂噪声环境会大大降低声音通信的质量和体验，同时会导致语音识别的准确率严重下降。因此，声音采集的是否清晰，是声音通信和语音交互的关键点同时也是技术难点。如何应对这一挑战？黄鹂智能总经理刘志先生将分享他的观点。

图：深圳黄鹂智能科技有限公司CEO 刘志
▲演讲PPT下载，pdf格式

　　(以下为演讲实录，略有删减)

　　刘志：大家下午好！感谢CTI论坛提供这样一个机会给大家讲讲我们在做的事情，以及为什么要做这件事，我的演讲题目是“智能化背景下语音前端技术的新挑战”，这个题目大家看着可能会比较疑惑，希望随着我的演讲和大家一起来探讨和交流这个课题。

　　说到语音识别相信大家都不陌生，现场做个调查，家里有语音识别设备的希望举一下手，基本上都举手了，觉得好用的请举手，这就少了很多啊。我本人2000年就开始做语音识别，是国内比较早做语音识别的一批，07年我们转到其他的方向了，当时发现语音识别领域坑太多了，但今天我还在做和语音相关的方向，还有很多和我一起的人在看好这个行业，在不断的投入，为什么？因为声音真的太重要了！心理学研究表明，声音传递的信息和视觉传递的信息是可比的，很大程度上它们二者是交融在一起的，在人类感知世界当中，单纯由声音传递的信息占了25%，而和图像加在一起相结合的又有40%，可以说声音传递的信息是感知世界获取信息非常重要的手段，但是今天声音的价值远远没有发挥出来。

　　今天，在呼叫中心和企业办公领域，智能语音技术对企业开始带来很多新的价值，它可以帮助消除繁重的电话量、帮助企业保持品牌输出一致性，一旦员工在打电话的时候没有传递出品牌所需要的信息，可以及时提醒他，还可以帮助企业管理合规性问题，帮助企业有效利用数据资产，以前很多企业掌握了大量的声音数据，但是却不知道如何应用，客户在这些声音当中到底表达了什么、他们想传递什么信息、想获得什么等等，过往的信息无法用，今天语音分析都可以帮助企业创造这些价值。而语音分析对于客户价值更大，它可以帮助客户更好的解决问题，任何一个人都不是万能的，我们能够记住的问题是有限的，企业厚厚的FAQ一个人都想背下来是不可能的，但是AI可以做得更好；语音分析还可以创造价值，从用户声音信息当中传递了用户面临的问题，通过虚拟客服可以发掘这些问题背后的价值，最终对于客户来说语音分析可以帮助提升体验，客户最终看重的是我被服务的感受好不好、体验好不好、是不是解决问题了，今天我们很多服务系统会让用户选择：十分满意请按1、不满意请按2，但通过语音分析，我们可以在整个服务过程中就自然的得出结论，用户是否真的满意。

　　这些都是我们认为语音智能可以带来的价值，我们也坚信未来这些都是可以做到的，但是今天的实际场景中会是怎么样呢？

　　我们播放一些噪声场景中录制的真实语音，有多少人可以听出里面说了什么呢？这段录音中分别有四段噪声，第一段是白噪声，第二段是工厂噪声、第三段是多人说话场景噪声、第四段是音乐噪声。在这样的噪声场景中，语音识别的准确率会怎样，可以请大家看看。这是一个语音识别系统对上面语音识别后的结果，我们说的是“现在是白噪声，现在是工厂噪声，现在是babble噪声、黄鹂智能，用声音智能改善人类生活与工作品质”，但识别的结果就如图所示了，可以看到，有噪声之后语音识别的准确率直线下降。

　　这个场景虽然是一个模拟的场景，但是实际上我们日常工作和生活中这样的场景无时无处不在。我跑过很多高峰期的职场，实际观察了人们工作的环境，发现大家坐在一起都在给客户通话，这种多人说话场景，大家相互干扰的情况很普遍；在公交车、地铁上、路过广场大街的时候，这些场景其实在身边每天都存在着。我们想从这样的声音中把想要的内容提取出来，是不是面临着很大的困难？这就需要声音前端处理的技术。什么是声音前端处理技术，我们说平时我们接触到的声音价值发挥大部分是后端的部分，比如语音识别、声纹识别、通过声音识别情感，声音通信也可以看做声音的后端应用，但是很少会关注前端的部分，前端通俗来说就是降噪，但实际上远远不止降噪，因为除了降噪还要做信息的增强；而噪声种类非常多，包括广义上的回声、混响都可以看成是噪声，对于前端的工作而言，最核心的就是两点，一是把不想要的噪声清除掉，二是保留原来声音当中的有用信息，保证有用的声音尽可能不失真，这是两个最核心的目的。

　　噪声背景下怎么样把有用的声音提取出来，这是前端所要处理的最核心的功能。那么复杂噪声场景怎么把声音提取出来，面临着怎样的挑战？首先第一个挑战，也是做声音前端处理工作中我感受到的最大的挑战，就是要解决强降噪和低失真之间的矛盾。一方面要把噪声降下来、要强降噪，很多噪声场景，性噪比达到了负的分贝，噪声能量和我说话的声音能量是相当的、甚至更高，这种情况下如何降噪，但更重要的是，降噪的同时也要保证声音的低失真，因为降噪容易对目标信号造成影响，很多噪声降得非常好、但是失真也很严重，这样在通信和人机交互场景是远远不行的，这是前端处理的第一个挑战，在我看来也是最大的一个挑战。

　　第二个挑战是噪声的种类带来的挑战，处理噪声的很多方法对于某一种或某几种类型的噪声是管用的，但是对于其他的噪声就束手无策了。尤其困难的是人声干扰的问题，因为和说话人声音是同样的频段如何消除人声，这是第二个挑战，在各种场景下都要适用的话，要求提升了不止一个量级。

　　第三个挑战，处理速度与通信交互实时性的矛盾。今天很多新的方法出现，但是效果比较好的同时也面临着处理速度的挑战，用声音来传递声音传递价值都有实时性要求，说完一句话之后过五分钟机器才有反应，这是实际应用无法接受的。

　　接下来我播放一下今天主流的前端技术对刚才同样场景的处理结果（播放音频），这是处理后的效果：第一确实降噪了，各种噪声都有一定程度上能量的降低；第二不同噪声也有不同的效果，前面两种噪声降得比较好，后面两种噪声残留比较多一些；第三是强噪声的地方声音有失真。这是人的感受，那么看看机器的感受（也就是机器的识别结果），我们看到，前两种噪声环境处理后识别准确率提升了，但是对于后面两种噪声，前端处理还产生了反作用，识别出来的内容已经和原来说话的含义完全无关了。

　　这是今天声音前端处理中非常常见的情况，也就是说，降噪的同时引入了失真，会导致机器的识别甚至比不降噪效果更差，还是达不到我们想要的结果。

　　那么黄鹂智能的解决方案是什么？我们瞄准最核心的点是在强降噪的同时保证声音低失真。我在做语音识别的时候就身受噪声的困扰，我们在实验室环境做得非常好，拿到实际应用场景中识别率就惨不忍睹，从那时候开始我们团队一直在研究怎么样能够把降噪和声音保真这两件事同时处理好。我们自己总结出了一套行之有效的方法，发现传统的信号处理的方法更多模拟人耳的特性，深度学习更多的模拟大脑的特性，实际上它们各自有优势、也各自有缺点，需要有一套方法把二者整合在一起，这也是我们一直以来研究的方向。

　　把里面关键环节打通后，我们确实发现得到了不一样的结果，几个核心特点：

　　一是高降噪的同时保证低失真。

　　二是高可靠的同时保证低延时。

　　三是高性能同时保证是可以普及的方案。

　　这是我们的技术和其他技术测试对比的结果，我们关注的是两个关键指标：一是降噪能力、二是失真程度。降噪用什么来衡量呢？用ANR指标衡量（环境噪声抑制指标衡量），低失真衡量用“MOS分”衡量。我们的技术可以做到降噪达到40分贝的同时，保证不同噪声环境下声音的质量分能够保持在4分左右，5分是满分，MOS分在4到5分是优秀。这个数字大家可能没什么真实的感受，我们来听一下我们技术采集的声音效果（播放声音）。这个声音有几个特点，第一是噪声降得很干净、第二失真虽然有，但是失真足够低，让人听得很清楚，那机器能不能听清楚呢？。我们看到仅有的错误在于把babble识别成了babu，所有其他部分的识别都是准确的。

　　所以说真正想要把声音前端处理这个点做好，我们就必须同时关注噪声降低以及声音的保真这两点，因为现在更多的应用不仅是人与人间的通信，也更多的在关注人机交互，而只有把　　这两点同时做好，才能同时保障人与人之间的通信是清晰传达的，对于机器而言也可以保证更好的识别。

　　我们做了更多数据集上的测试，从图中可以看到，今天典型的语音识别系统，安静环境下识别率在90%以上，但性噪比在0分贝的时候，如果不做降噪处理的话，语音识别率就下降到70%左右，而使用了我们的技术进行声音采集后，在0分贝的情况下识别准确率可以回到90%的水准上。这样可以有效提升噪声环境下语音识别的识别率，同时保证客户只听到提供服务人员清晰的声音，提升客户的体验。

　　今天用语音识别设备的人很多，但满意的有多少？我自己是语音领域深度的用户，我家里面的智能音箱有七八个，但我的孩子都说这不是人工智能，这可能是人工智障（笑）！但我作为一个智能语音行业的从业者，知道语音智能系统中的难点，其中的每一点进步都需要大量的科研人员在各种不同场景下做各种各样的测试，从而取得一点一点的进步，今天我们也能够看到语音行业从业者这么多年依然在坚持不懈的努力，因为我们坚信声音的价值。今天我们的技术也不是所有的噪声场景都可以很好的解决，但是我们正在一个一个场景下取得突破和进步。

　　这就是我们，黄鹂智能！2019年8月份刚刚成立公司，很不幸就赶上了疫情，去年4月份才推出首款产品，但去年一年时间里，我们已经让很多不同行业的客户认识了我们、也认可了我们！去年我们推出了几款有线耳机产品，今年我们会推出蓝牙耳机，未来我们将继续拓展拾音降噪的应用场景，也希望今后论坛当中可以不断和大家分享我们的进展和新的收获。

　　我们企业的小伙伴们都坚信声音智能是能够有效的改善人类生活和工作品质的，它真的是一项非常有前景、非常有价值的技术，也是非常好的发展方向，需要更多的人来投入、有更多人提意见、有更多人对这样一项技术敢于尝试。我们的愿望是和行业里面所有合作伙伴一起，让声音的智能化场景越来越落地、越来越多的被应用起来，因为只有应用才能发现问题、只有应用才能解决问题。

　　我们永不止步因为噪音无处不在！谢谢大家！

评论排行

推荐阅读

专题

大家都在看

CTI论坛会员企业