您当前的位置是:  首页 > 访谈 > 企业专访 >

专访深圳黄鹂智能科技有限公司CEO刘志

2021-04-19 17:38:21   作者:   来源:CTI论坛   评论:0  点击:


  由CTI论坛(www.ctiforum.com)主办的2021中国呼叫中心及企业通信大会 (http://www.ctiforum.com/expo/2021/ccec2021spring/index.html)于4月15日在北京辽宁大厦成功召开。本次会议以“5G时代 共筑企业通信云生态”为主题。深圳黄鹂智能科技有限公司CEO刘志受邀接受了CTI论坛的专访。

深圳黄鹂智能科技有限公司CEO刘志
 
  CTI论坛:各位朋友,各位嘉宾,这里是2021中国呼叫中心及企业通信大会的视频采访现场。今天我们有幸请到了深圳黄鹂智能科技有限公司CEO刘志先生。现在先请刘总跟大家打声招呼。
  刘志:hello, 各位CTI论坛的朋友们,大家好,我是深圳黄鹂智能科技有限公司的刘志。在这里很荣幸能够接受我们这次大会的专访。
  CTI论坛:刘总,非常高兴您接受我们的现场专访。我现在有几个问题,请您跟我们的观众朋友们交流一下。我的第一个问题是这样的,黄鹂智声这个品牌相信对于很多人还很陌生,这是一个新兴的品牌,这家成立于2019年的人工智能技术企业,但是来头一点都不小,他们的研发团队都是清华大学的背景。请刘总介绍下成立黄鹂智声的初衷是什么。
  刘志:这个说来就有点话长,刚才跟秦总聊,咱们CTI论坛是2000年就成立了,那个时候呢我刚好步入声音这个领域。那刚好是我在读研究生的阶段,就接触到了和声音相关的各种技术。毕业之后,我就开始了创业旅程,最早是做语音识别,在05年左右的时候的语音识别还不像现在这么火,那个时候连苹果的siri还没出来。实际上苹果手机上的第一款语音拨号软件就是我们团队做的,我们当时针对欧美市场做了一款语音拨号软件,叫voicedialler,把电话簿导入进去之后,就直接说一声,我要call somebody,就把电话给打出去了,当时就做的这样一个产品,市场的反应非常好。后来我们又做了口语测评类的产品,就是教学生学英语,我们用机器来评判学生的口语发音到底是不是准确。但是在做这几件事情的过程中,我就发现一个我们怎么也绕不开的一个问题,那就是噪声问题。即使到今天,噪声问题也依然是我们声音通信行业以及智能交互行业里面,大家最头疼的问题,也是绕不开的一个问题。我的印象非常深刻,我们的识别系统在安静环境下识别率做的很好,但是在很多实际应用场景,比如说开车啊,户外啊,识别率就直线下降。我还有印象,我们的系统中有一个识别词叫“清华大学电子工程系”,平时在安静环境下识别非常准确,一到车上结果变成了“清华大型电子对撞机”,结果就完全不对了,这件事情就促使我们在声音前端处理这个方向开始了研究。经过十多年的研发的积累,我们找到了一条路径。因为降噪这件事情说起来,大家一听都能理解,但是想做好非常困难。我们也是经过十多年的演化之后才找到了一套独有方式,能够很好的去解决降噪当中一个最主要的矛盾,就是既要降噪降的好,又要保证声音低失真,所以我们十几年来就一直围绕这个点,因为很多时候我们人耳和这个机器啊,它对声音的敏感度还不一样。我们人耳对噪声的容忍度是相对比较好的,但是机器因为很多是在安静环境下训练出来的,噪声和失真对它的影响就比较大。未来的时代是人机交互的时代,我们的声音发挥的作用越来越多的不光是在人和人之间通信,还包括人机交互。咱们的论坛上很多嘉宾都在讨论这个问题,对吧?所以说声音的降噪、语音的增强,作为产业链条上的前端技术,是大家都绕不开的一个问题。我们看到这个技术巨大的市场应用价值,所以经过前面的这些积淀之后,我们决定把这一块的技术独立出来,专门围绕着拾音降噪,我们通过这种人工智能和信号处理相结合的这种方式,来解决这个降噪难题。然后我们就是围绕着几个大的应用场景,或者说几个未来大的趋势:第一个就是人和人之间通信,需要拾取清晰干净的声音;第二是人机交互,让机器能够听懂人;第三是未来需要让人能听懂机器,因为机器也会发出声音,要想听懂机器的语言同样需要降噪处理。在这三个大的场景当中,我们认为降噪都能够发挥作用。这个就是我们黄鹂智声成立的初衷,我们的使命叫做“用声音智能改善人类生活与工作品质”。因为声音在我们生活工作当中方方面面都能起到作用,但是今天我们觉得声音的价值还是很多时候没有发挥出来。所以我们是希望能够通过我们所做的这些工作,真正的把声音的价值给发挥出来,能够让整个行业更好的给我们人类去提供更多的便利,这是我们的初衷。
  CTI论坛:好的,谢谢刘总。这个声音对于我们人类生活的和工作这种价值,也是黄鹂成立的初衷。刘总,我的第二个问题是随着5G和AI的发展,声音通信和智能化处理存在巨大需求。但噪声干扰和器件限制,极大降低了声音采集的精度和范围,严重制约着通信质量和声音智能处理效果。声请您谈一下声音前端处理的这种技术发展的方向和趋势。
  刘志:好的, 这是一个比较专业一点的问题了。我就先尽我的所能做一些介绍,谈谈我自己的理解。
  刚才其实说到,声音有非常大的作用。我们每天都在跟人打电话,对吧?这是声音的传输,那在传输之前呢?我们要把声音先采集下来。有了传输,这就是我们所说的通信。那么人机交互是什么呢?声音首先采集下来,之后交给机器去做识别。现在有语音识别,有声纹识别等等的智能化处理。现在甚至可以通过声音来判别情绪,未来还有很多很多声音里面可以传递出的信息。那我们通常来说把这个前面采音的部分叫做声音的前端处理,后面做识别也好、做通信也好,我们把它叫做后端。简单来说就是说我先得把声音采集下来,而且在这个采的这个过程中,我们希望这个声音尽可能采的清晰,尽可能把我想要的有用的声音给抓取,把噪声尽可能给屏蔽掉,这个我们广义的把它叫做声音的前端处理。您刚才也提到前端处理有几种大的手段,一种是靠声学的器件,就是麦克风。好的麦克风很贵的,有的甚至上百万一只,它的动态范围、保真度都有差异。另一种手段就是做信号处理,就是麦克风采集进来之后,怎么样去把这个声音的降噪这个问题,把语音的增强这个问题给解决。我们就是站在这个角度去研究,着眼点是在算法层面。降噪又有很多具体的细分的点,比如回声就是一种噪声。回声是什么呢?比如说我有个音箱,它放出来的声音被麦克风又采集进去了,这个就叫回声。还有混响,房间中的反射,会非常严重的影响我们的听感,我们听着就是感觉嗡嗡嗡嗡的不清楚;然后还有噪声,比如说我在家办公呢,旁边有人在装修,打电钻;或者我在这说话呢,我孩子在旁边喊一嗓子,这都是噪声。噪声还分稳态和非稳态的等等。这些对于我们的有用声音来说,它都属于噪声。我们的目的就是要把他们都消除掉,而且还要保证我的这个声音尽量的少受损伤。这就是前端要做的事情,那从技术手段上来说呢,又分为很多信号处理的手段,以及深度学习的手段,AI的算法。具体到每一种手段的话,他又有各自的优点和缺点。那么对于我们黄鹂智声来说,我们所做的是一种融合性的手段,是一种创新性的融合,是把信号处理和AI的算法综合在一起,取长补短,这样能够达到的一个效果就是刚才说的最难办的问题--高降噪的同时还要保证低失真这一点。这是我们团队在声音前端处理这个技术上取得的一个相比于其他方法更加有价值的一个成果。
  CTI论坛:听刘总这一段解释,然后真的让我觉得自己也得到了一个知识的普及。观众可能也会是对于这个行业可能会理解得更深一些。
  那么第三问题是黄鹂精巧C101u单耳专业降噪话务耳机荣获CTI论坛2020编辑推荐奖,与市面上大部分降噪耳机不同,黄鹂主攻“通话降噪”,请介绍此款耳机的创新具体表现在哪里?
  刘志:其实如果单纯从外观和基本的功能上来说的话,和市面上所有的这种单耳的话务耳机基本没有区别。我们自己找了点区别,比如说我们做了一个防止夹发的设计,我们还有一个波浪型的设计,让佩戴舒适性更高一些;当然还有轻巧,我们做到四十几克。但是这些坦率来说,不是我们最核心的创新。我们的最核心的创新还是集中在我们的拾音降噪性能。因为我们发现,今天在呼叫中心,企业的通讯办公这个领域,噪音是一个大家都很头疼的问题。但是之前也没有好的解决方案,我走访了一些客户,他们的坐席距离比今天我跟秦总要近多了,最多的就是胳膊挨着胳膊,中间都没有隔板,在他们业务最高峰的时候啊,使用我们的这款耳机去和客户沟通,把这个声音录下来,回放回听的时候,客户都是非常惊讶的,就是完全没有周边的声音干扰,每个接线员的声音就是他自己的声音,清晰可闻。这样的客户体验我相信是我们很多企业都希望能够达到。其次我们跟后端做语音识别的一些伙伴做了测试,那我们可以看到今天的安静环境下,语音识别的系统识别率可以到90%以上。但是真到了这个实际的噪声场景,一旦大家都坐下来,都开始叽叽喳喳说话的时候,那个识别率下降非常严重,掉到了70%甚至以下。这个时候把我们的这个耳机用上之后,识别率就一下回到了接近安静环境下的水平,所以针对呼叫中心语音质检,智能客服的应用,可以辅助语音识别,让语音识别能够在这种嘈杂环境下依然可以保持一个健壮稳定,高识别率、高水准的输出。所以说这样一款产品,它搭载了我们的核心技术之后,能够产生的两大优点:一个是让我通话的对方,让我们的客户体验度提升。第二个是让机器也能听明白,让今天的很多智能化场景真正能够落地。我们能够做到的就是用一款产品可以同时满足这两点,这个恰恰是今天很多其他技术做不到的。这是我们这款耳机最核心的亮点,也是我们给客户真真实实带来的价值。我们的团队做事情的一个原则,就是一定是真真实实的要给大家带来价值,听得见,听得清,听得懂,能够感受体会的到。
  CTI论坛:谢谢刘总精彩的分享。我想在这里说一下,就是说我跟刘总的初次见面应该是在2019年的10月份啊,在深圳的一个大会上,然后呢。我们在行业有个老专家胡志明先生介绍的。然后当时因为毕竟也没有体验过,然后我们就邀请他参加我们2019年12月年底的编辑推荐活动,然后刘总就带来了一款他们的这个产品的一个功能的现场演示。我跟大家介绍一下当时在座的近100位的行业的专家们真的在听完刘总的这个演示以后,真的我觉得那个掌声是我最近几年听到最热烈的,真的是因为他确实是就如同刚才刘总介绍。在呼叫中心里头,就是说他们那耳机上完了以后,人家说就完全的就是说真的当时的现场的这些,近百位的专家们真的都有那种感觉,哇,就是说在噪音的情况下,完了以后,他们再把重新时间和降噪之后的呈现了以后,真的很震惊,因为刘总当时也是就是说你们你们这些人随便鼓掌,说话呀,然后唱歌什么都行。然后刘总在那说,然后居然就把其他人的声音都给屏蔽了。真的我非常感谢刘总,感谢黄鹂智声给行业带来这么一个新鲜的一个震撼的一个产品和技术。谢谢谢谢。
  刘志:也特别感谢CTI论坛。其实您说的这个场景我历历在目啊,那个时候我拿的还是一个非常粗糙的demo,当时心里也非常忐忑啊。但恰恰是这次机会,把我们引入到了这个行业,带我们走出了第一步。所以真的是也是非常感谢秦总,包括我们整个cti论坛所有的同仁,也希望把更多更好的产品带给我们行业,带给我们所有的客户,以及未来进入到千家万户!
  CTI论坛:谢谢刘总,谢谢。我们在这里头也预祝黄鹂智声一个年轻的公司,在今后真的未来可期取得更大的成绩。谢谢大家,。
  刘志:感谢大家!
  采访嘉宾介绍:
  刘志:深圳黄鹂智能科技有限公司CEO,兼任清华大学电子工程系企业导师、经管学院GTE项目导师,中国教育学会智能语言教学研究中心研究员。清华大学工学硕士,高级工程师,拥有近20年人工智能领域创新创业经验。曾获北京市科技进步奖、中国电子学会科技进步奖等多项荣誉,拥有专利数十项。中国语音环境降噪处理专家。
 
【免责声明】本文仅代表作者本人观点,与CTI论坛无关。CTI论坛对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

相关阅读:

专题

CTI论坛会员企业