您当前的位置是:  首页 > 资讯 > 文章精选 >
 首页 > 资讯 > 文章精选 >

深圳黄鹂智能科技刘志:极致

2019-12-24 09:16:24   作者:   来源:CTI论坛   评论:0  点击:


  2019年12月20日,由CTI论坛(www.ctiforum.com)主办的"行业应用及市场分析主题沙龙暨CTI论坛2019年度编辑推荐奖颁奖"活动在创业大街成功召开,并公布了"2019年度CTI论坛编辑推荐奖"的评选结果。深圳黄鹂智能科技有限公司总经理刘志应邀出席此次活动并发表了精彩的关键词演说《极致》。

图:深圳黄鹂智能科技有限公司总经理刘志
  以下为深圳黄鹂智能科技总经理刘志的发言稿全文:
  大家下午好,我是深圳黄鹂智能科技总经理刘志。相信在座的各位听说过深圳黄鹂智能科技公司的不超过5个人,因为这个公司是今年8月份才刚刚成立的,所以在呼叫中心行业我绝对是一个新人,今天跟很多前辈学到了很多东西。黄鹂智能科技应该算是我的第三次创业,我今天演讲的主题关键词是"极致",其实也是想跟大家分享一下我这三次创业当中的一些小故事。
  我应该算是国内比较早一波做人工智能领域的,在2001年我在清华大学读研究生的时候就一直在做语音技术。2005年的时候,我第一次创业,那个时候是做嵌入式的语音识别,我们公司是全球第一个在苹果一代手机上做拨号软件的公司,当时和国外的合作伙伴一起做了VoiceDialer,收获了几百万的第一桶金。其实语音识别在那个时候就蛮火的了,但是,很不幸,第一次创业算是失败的,回过头来总结,第一次为什么会失败?我们发现问题出在技术上我们没有做到极致。
  语音识别相关的技术是什么时候真正成熟起来的呢?2009年苹果的Siri出来之后,其实还没有带动整个产业,随后Amazon?Echo出来之后,才使得语音的价值逐步的被大家所认识。实际上语音作为人机交互的一个重要手段,在很早之前,微软比尔盖茨就说过,他坚信语音是未来是人机交互的一个重要入口,可以取代键盘、鼠标,取代很多很多其他的外设。但是为什么这么多年语音一直没有真正地能够进入到应用?从我第一次的创业经历,我有一个非常深刻的感受就是,技术要达到一个临界点才有商用价值。我们可以简单地用四个字来总结,什么样的临界点?以前的技术,四个字来讲叫做"技不如人"。
  什么意思呢?人工智能技术的水平,它达不到我们人类的水平。刚才其实有很多专家也都提到了,人工智能将来是期望要代替人类(replace),至少在一部分工作上,那么如果技术的能力达不到人的基本要求的话,怎么来代替?这是我第一次创业给我带来的一个非常深刻的教训。那么转而我就在思考,既然当时的技术达不到能够去代替人这样的一个程度,那么技术可以做点什么呢?我就转到了第二次创业,教育行业,跨度稍微有点大。教育行业我做了什么?当然还是做语音,我们做中小学生,包括成人的口语测评。学语言的时候,我们用机器来代替老师评价学生的口语发音,包括到现在来评价一些语法、语义等等。当时切入这一行有一个很简单的想法,因为做口语测评,对语音识别的要求没有那么高。
  我们刚开始做什么题型?主要做跟读和朗读。我先把文本给学生看到,然后学生照着把它读出来。这个时候其实对识别没有太高的要求,因为我预先就知道学生要说的是什么,这种时候识别的准确率其实是降低了,但是新的挑战来了。我把它叫做对于业务的场景或者叫做对于用户的需求,让技术怎样和应用场景以及业务去结合?这是我们要去挑战的第二个极致。在这个场景里面,我简单的举几个例子,可能大家就能够感受到它要解决的问题是什么?我们可以想象中国人学英语,为什么不是国外的系统,不是英国的系统,美国的系统来指导我们。其实很早就有做这个英语发音评价的企业,像Nuance公司等很多大的企业,也做这件事情,为什么它的系统在中国一直没有办法去落地生根,因为我们中国人说的英语和地道的英语有很多差异。
  我举一个非常简单的例子,我们说very good。英文中这个v音,它是一个咬下唇的发音。但是在座有很多人是中式发音,听起来没问题,对不对?但其实是错的。
  我们汉语当中没有这个"v"音,机器识别的时候他会很敏感,他就把这个点抓出来。所以我们用国外的系统给中国学生打分的时候,经常打的分惨不忍睹。那么要解决这个问题,我们就要把中国学生常见的发音错误给它挑出来,然后去针对性的进行模型训练等等一系列的工作。这些工作和技术有关,但是更重要的是和业务场景有关。那么,光克服了这个挑战就够了吗?光在这些点上做到极致就够了吗?实际上还远远不够。
  当我们拥有5000多万的用户的时候,我们就会发现场景又发生了变化,面临的挑战又发生了变化。我们遇到了什么样的情况?学生在家里学习,在学校学习,都会有大量的噪声干扰。在家学习的时候,家里可能开着电视,在学校学习的时候,很多时候就跟我们今天大家坐在这个会场上一样,相互之间的距离非常近,学生和学生之间的声音相互干扰,有一些女生声音比较小,旁边男孩子的声音就把她全部掩盖住了。不要说机器识别不出来,人也识别不出来,老师有时候都听不见学生说的是什么。那么针对这个问题,我们又想办法去解决,去提升这个针对应用场景的挑战。如果我们不能做到极致的话,实际上还是没有办法给用户提供完整的解决方案。因为有很多好的学生,他为了追求完美,一旦出现问题,他会反复反复的读,真的有很多学生都读哭了,那么针对这个问题我们继续做降噪技术的突破。做技术的人很多时候会想要把技术做到极致,但是在做之前,我想说我们要思考为什么要做它?我们解决的是什么问题?今天我们在教育领域,已经开发了专为教育用的耳机,这个耳机能达到什么效果?刚好今天大家可能听到这儿,可能已经有点疲乏了,我们做一个小的互动游戏。我带了我们的一款学生耳机,我一会带上它,然后我想请大家给我制造噪声,你们能想象的,越大的噪声越好。我打开的是一个录音软件CoolEdit,搞语音搞音频的很多人应该都知道。那么接下来我说话的时候也请大家说话,然后我再把它播放出来。
  录音开始,我现在在说话,请大家制造噪声……待会我请大家一起听一听。正如大家听到的,现在播放的只有我录进去的声音,并没有大家发出的噪音。这个技术现在已经不止用在教育领域了,在我们国家最尖端的军事应用上,也已经用了我们这个技术用来做通信和识别,因为声音的价值就是两点:第1点,用于人和人的通信;第2点,用于人和机器的理解。
  语音交互确实是一个入口,但是这个入口要解决的问题,远远不只是唤醒、识别、声纹等,而是必须要做整体的解决方案。今天,黄鹂智能这个新兴企业进入呼叫中心行业来,为大家带来的是什么?实际上是带来了这样一款新的产品--自适应通话降噪盒,我们将通话降噪算法植入这样一个小小的盒子,现有市面上的耳机只要加上它,就可以达到我刚才展示的降噪效果。不管是用来和客户沟通,还是接后端的语音质检、智能客服等各种系统,它都能够帮助我们给客户带来极致的感受,让智能化真正落地。以上就是我今天分享给大家的。我也希望和大家一起来共同创造极致,创造不可能,让声音智能改善人类的生活与工作品质,谢谢!
  黄鹂智能科技自适应通话降噪盒 清晰声音,交互万物。为话务耳机的语音发送端消除噪声,提供清晰流畅的语音拾取。合作请联系:Kevin 13692103765 点击视频详细了解!
  
【免责声明】本文仅代表作者本人观点,与CTI论坛无关。CTI论坛对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

相关阅读:

专题

CTI论坛会员企业