黄鹂智声CEO刘志：后疫情时代语音降噪对于客户体验的重要性

　　由CTI论坛(www.ctiforumcom)主办的2020中国呼叫中心及企业通信大会(http://www.ctiforumcom/expo/2020/ccec2020spring/indexhtml)于9月18日在北京辽宁大厦盛大开幕。本次会议以“‘新基建’背景下ICT行业发展机遇与挑战”为主题。深圳黄鹂智能科技有限公司CEO刘志应邀出席此次会议并发表题为《后疫情时代语音降噪对于客户体验的重要性》的主题演讲。随着数字渠道的发展和人工智能的到来，一个普遍的误解是传统的人与人之间的语音交互已经过时。但实际上并非如此，语音交互的目的已经改变，从之前处理所有的咨询业务转变为处理企业与其客户之间最复杂，最有价值的交互。自从本次冠状病毒大流行以来，语音交互的重要性更是不断提升。在此背景下，如何提升语音交互的体验？黄鹂智声的演讲为大家带来新的视角。

图：深圳黄鹂智能科技有限公司CEO刘志
▲演讲PPT下载，pdf格式

　　刘志：感谢CTI论坛，我在呼叫中心和企业通信领域是个新人，我们公司也很新，去年8月份刚刚成立。但是疫情让我对这个领域所做的事情有更新的认识，首先我认识到呼叫中心也好、企业通信也好，是服务于全行业的。有一个笑话，说疫情当中三个月没有接到推销电话感觉整个人都不好了，终于盼来了一通推销电话，瞬间点燃了自己。我也有这样的感受，我接到的外呼电话和我打出去的客服电话，经常会遇到这样的场景，我给大家演示一下，就是这样嘈杂的环境。这样的场景大家并不陌生，不仅是在呼叫中心，在企业办公中，整个疫情期间我参加的不下一百场的各种各样的线上宣讲、会议等等，才意识到一个问题，我们大部分人不知道通话的对方听到我的声音是怎样的。而我听到同事们家里面狗叫猫叫的声音，我意识到我也可能给对方带来了不好的体验。

　　实验心理学有这样的数据，说明声音有多重要，在人类获取的信息当中有20%是直接来自于声音，还有25%是声音和视觉的结合，今天在现场能够面对面的交流是对于信息交互是非常难得的，因为既有声音又有视觉，大家可以看到我的表情、形态和肢体语言，但是一旦到了线上看不到对方，这种情况下声音是不是就是我们获取信息的唯一来源呢？从人类表达信息的手段来看，有声语言更是占据了绝大多数的比例。可是声音这么重要，我们却常常忽略了噪声的影响。

　　我们可以看到疫情的影响下，越来越多的企业已经在选择在家办公了，包括Facebook、推特，疫情前美国有5%的企业办公选择在家或者是比较自由的方式。我相信疫情终将过去，但是就像03年非典之后电商发展起来了，这次的疫情后我相信线上办公、学习、娱乐等等很多新的生活工作方式会变成常态，但这里面有个非常重要的问题，就像电商普及那样，就是体验非常重要。对于在线办公和呼叫中心来说，语音降噪对于客户体验就是非常重要的。

　　呼叫中心大家也都知道，今天数字化越来越成为潮流，今天下午的演讲中五个同行，有四家都是在讲人工智能，怎么样用人工智能来让客户的体验更好，但同时也要看到，今天在这种数字化变革下，今年85%呼叫中心也要做数字化变革，但是对于数字渠道满意客户只有21%，我自己就对很多数字渠道很不满意，还有1/3通过数字渠道发起的客户服务最终还是转到了人工，这不是代表智能化不是趋势，实际上智能化一定是趋势，但是今天怎么样去提升客户的体验，语音降噪在智能化当中也有非常多重要的价值。

　　我们看到语音虽然是个非常古老的手段，但是不管是在呼叫中心还是在企业办公中今天发挥的作用是不但没有减小而且是越来越大的。拿呼叫中心来说，作为问题解决中心我们观察到，虽然人工智能数字化渠道有很多好的提升效率的手段，但是总有一些查询最终要到人这里，而且要看到一旦到了人这里的问题，一定是最有价值的问题，也是最难解答的问题，机器人搞不定的问题最终交给了人。我也是做人工智能的，人工智能今天只能解决相对简单的有逻辑问题，毕竟人工智能没有认知，也无法体察我的情感。

　　语音到人工一定是处理的最有价值的交互，呼叫中心也是价值创造中心，今天获取客户的成本越来越高，我以前所在的教育培训行业在今年疫情影响下是突飞猛进的增长，但是所有的从业者都有一个非常担忧的事情就是获客成本越来越高，这种情况下怎么能够保留现有客户，让现有客户为我们带来更多的价值等等，这些都是企业必须要思考的问题，而这种保留客户的发掘客户价值的渠道、这样的交互，人工智能只能作为辅助手段，一定需要通过人与人之间情感的交互。

　　今天呼叫中心行业中语音渠道的目的改变了，已经不是处理简单查询的问题，而更多的是解决复杂但是有价值的交互。优化语音渠道，让语音渠道给用户带来的体验更好，这一点在后疫情时代越发有必要。

　　我最开始演示的一样，今天很多语音渠道连最基本的让对方听清楚这一点都有差距，这是什么原因呢？核心问题就是噪声。我们通常大家会有个感受，我面对面交互的时候有噪声影响也不大，为什么到了坐席这里、线上交互的时候噪声难道就发生了质的变化吗？我研究声音接近20年的时间，可以很明确的告诉大家线上和线下的语音交互是完全不一样的体验。两点：一是我们在面对面交流的时候除了声音以外，我们也有眼神的交互、肢体的语言，通过视觉那25%大量获取辅助的信息，信息传输手段是综合多维的，一旦变到只有单一的语音途径的时候，对于声音质量的依赖性极大的加强了；二是人是非常智能的智能体，我们在面对面交流的时候不是一只耳在听，而是两只耳朵，这是双耳效应，双耳效应可以自动帮助抑制噪声、定位声源方向，一旦录下来再播出来相当于是一只耳朵在听声音，这种人类自身降噪机制发挥不了作用，这也就是为什么降噪这件事非常重要，但是又很困难。

　　上世纪50年代很多人研究相关课题，直到今天我们看到了很多降噪的方法依然有各自缺陷。传统的方法是预测噪声的走向，知道下一个时刻噪声是怎样，从带噪语音中把噪声减去，但是只对稳态的噪声，比如空调的噪声有预判，对稳态噪声效果非常好，但是实际上今天噪声环境越来越复杂，传统的方法很难解决。

　　阵列方法模拟人耳双耳效应，也有更多的四个麦克风、八个甚至更多，它的思路是模拟人耳，但是首先对麦克风的品质一致性要求非常高，其次这种方法的边界效应比较明显。最新2011年兴起的深度学习降噪方法取得很好效果，但是也有两个问题，首先是模型结构非常复杂，算法复杂度非常高，很难满足通信实时性的要求，其次是这一轮人工智能深度学习方法是黑盒，训练出来的模型、模型参数什么样很难搞清楚，我们也无法知道到底是怎么训练的，有些时候用了这个方法之后中间声音听不到了，也不知道发生了什么、也无法进行修正。

　　黄鹂智声在降噪方面研究了15年以上的时间，发现前面的方法有些是从人耳的特性出发的，有些是从大脑特性出发，比如深度学习是模拟大脑，前面说的阵列、传统降噪方法是模拟人耳，而我们做的是把二者统一起来，听觉智能是耳朵和大脑中枢一起作用的结果，把信号处理的方法和深度学习的方法进行融合，取长补短把它们当中优点发挥出来。从而在降噪问题上解决了以下难题，既要高降噪又要低失真，很多降噪可以把噪声降得比较好，但是要的声音也有丢失，要么是声音听着还可以，但是一直听到噪声。高可靠低延时，我们方案最低8毫秒的延时，这是通信系统里面是完全可以被忽略的，同时高可靠，不会丢数据，不会听到中间断断续续的，三是高性能低成本，这样的技术可以达到参数指标，可以做到降噪40DB以上，今天在飞机发动机尾部地方，十几架直升机一起轰鸣，走出去感觉声浪很厉害，直升机去感受一下，都可以感觉把人振起来，我对着别人耳朵大声喊人家不知道我在说什么，但是用我们的技术，带上我们耳麦后可以实现清晰的声音传输，也可以用它去进行语音识别，40db是对噪声能量降低一万倍以上，我们还可以让语音质量保持在3.5分以上满分是5分，最终可以呈现出高质量、高性价比的产品。

　　基于这样的技术，我们也给呼叫中心和企业通信领域带来了四款产品，自适应通话降噪盒是去年11月份出来的产品，可以接固定电话，传统的固定电话接上我们的降噪盒以后变成专门降噪的电话，第二款产品G100U，今年4月份刚刚出来的，主要定位教育培训行业，看着比较大一些。4月份刚刚出来5月份就在教育行业拿到了数十K的订单，现在交付达到几十K。第三、第四款产品是CTI论坛平台上首次发布的，E100U，精英系列产品，主要目标人群是办公人群，是可以接typecC接口，主流安卓手机，也可以接电话。C101是精巧系列，是给呼叫中心和坐席人员准备的，刚才我在刚开始的时候请老师给我播放了一个噪音我也戴着我的C101耳麦同步做了录音，大家听听刚才用这样的耳麦录下来的刚才声音。

　　（播放声音）

　　同时播放了噪声，大家听听用C101耳麦录音是不是完全听不到任何噪声也没有任何失真？这是技术所体现出来的实际的效果，不用建专业隔音室，只需要戴一个耳麦就相当于给每一个坐席、每一个办公人员建立了一个专用虚拟的办公室。

　　智能化是方向，但是今天其实包括刚才云趣提到的问题，今天语音识别的识别准确率会非常受到环境噪声的影响，实测安静环境下95%的识别率，真的在噪声环境下，噪声环境相对比较恶劣的话可能会掉到70%以下，我们的设备还可以来支持数字渠道和智能化的渠道，合作伙伴只需要关注后端的质检、客服助手等技术的准确率以及效果，完全可以把前端怎么让声音更加干净、更加清晰这样的事情交给我们。

　　我们公司是非常年轻的一家公司，去年刚刚成立，但是在声音领域的研究有超过20年的历史，我本人清华电子系毕业后一直从事声音相关的工作，做过语音识别、做过口语测评、做过语音编解码，和声音相关方方面面很多我是非常非常清楚的，当时做语音识别的时候特别有感受，我的硕士课题是车载环境下语音识别，在实验室里面调得非常好的设备拿到车上后马达一响、车一开，完全报废了。噪声的影响也是我们团队一直想去克服的，而且我们认为它对于人类生活工作品质真的有非常大的帮助。

　　我们企业的使命是用声音智能来改善人类生活与工作品质，声音作为人最重要的信息交互手段之一，实际上今天它的价值远远没有被发掘，就拿它和视觉去对比，可以看到今天很多视觉的设备已经非常多的应用，但是语音始终感觉还是欠了点火候，在我们看来，噪音是其中一个非常重要的障碍，我们希望把我们的技术和更多的伙伴们一起合作，因为我们是前端技术，是相对底层的技术，所有需要噪声环境下进行采集、通信、识别等声音能够发挥价值的地方都希望和大家一起携手合作。我们有一个愿景，我们认为今天声音更多的是人与人之间的交互，而未来它可能成为万物互联的手段，我们把我们的技术和大家的结合在一起，构建这样一个万物交互的世界，我们认为这样的一天不是那么的遥远。

　　谢谢大家！

评论排行

推荐阅读

专题

大家都在看

CTI论坛会员企业