WAIC·开发者日|竹间智能CEO简仁贤谈NLP落地修炼之道

　　7月11日，2020WAIC·开发者日特设「构建AI基础设施」分论坛，邀请包括华为、腾讯、竹间智能、京东云等业内多家企业专家共同探讨这一话题。竹间智能CEO&创始人简仁贤将以《“懂语言者得天下”NLP落地修炼之道》为主题，分享新基建建设及企业数字化、智能化转型新思路。

　　以下分享分论坛演讲实录

　　分论坛实录

　　大家都知道自然语言处理是人工智能里的掌上明珠。人工智能主要包含视觉、语音跟自然语言处理，而其中NLP自然语言处理是其中最难的部分，我相信大家都已经认同。那么视觉跟语音的发展也已经经过了一段时间，技术也相对比较成熟，场景也比较固定。

　　那么自然语言理解的场景有多么浩瀚？自然语言理解需要处理的问题有多少呢？我们如何把自然语言理解结合人工智能的技术，在行业里去落地，通过行业应用的场景能够产生更多的价值，这个是我们今天要来探讨的问题。

　　竹间智能从2015年成立到现在的5年里，一直以自然语言为核心，以情感计算为基础，打造流畅的人机交互，追求有温度的交互机器人，来解决人跟机器沟通的问题。不仅如此，我们也在解决人机协作的问题。竹间将自然语言处理技术应用到解决非结构化数据，也就是从文本分析的范畴，把人机交互沟通、协同的问题，也同时运用到业务自动化，流程自动化，解决业务上的问题，提供更好的端到端的服务。所以自然语言理解、情感计算是竹间智能的两大主轴。

　　近5年来竹间一直在沉淀和积累行业的场景，今天来跟大家分享一下自然语言理解如何去落地。以前我的老上司沈向洋博士曾讲过一句话：“懂语言者得天下”就是说未来的世界里面，不论是生活，工作或是娱乐，各个方面会有语言来辅助。不管这个语言是人跟人沟通的语言，还是人跟机器的沟通的语言，或者是未来幻想中一个机器跟机器沟通的语言，语言会成为一个人类生活层面的操作系统，所以懂语言者得天下，如果能够将语言了解透彻，就能帮助人类在言语的沟通上起到协同和赋能的作用。

　　竹间在过去5年来，已经把自然语言的这些技术应用到各行各业，沉淀下来非常多的场景，并把场景转化成了产品和平台，把产品做成平台，把平台当作产品。目的是帮助企业把NLP应用更快落地，更安全、更顺畅、更低成本、更高效率。依靠竹间Bot Factory™这样的产品平台沉淀了数百个标杆客户，5年来不断的以自主研发的自然语言理解跟情感计算的技术和知识工程技术为基础，搭建出平台，让机器人真的能够看得懂，听得懂，读得懂，也能够去解决所有的人的业务的问题。竹间智能一直以来的愿景：

　　Emotional Robot for everyone，

　　every business，and every smart device

　　所以我们是来连接人、商业和终端三个为一体的一个环节，来做情感机器人，能够赋能于人类生态。

　　把握NLP的契机

　　今天要跟大家讲的是如何在人的生活当中去找到NLP的契机，对于企业来讲，我们如何去赋能企业来帮助个人生活得更好、更便利、更有效。

　　企业内普遍存在以下难点，第一，营销获客，企业能够获客，能够有新的业务才能生存，才能提给客户更好的服务。

　　第二点，提高服务的质量。有了新客户，如何去服务已有客户进行留存和转化，则需要提供更好的体验，让企业能够有持续性的商机，让客户享受到更好，更值得的高质量服务。那么还有最核心的一点是企业要减少人力成本，加上今年疫情给大家带来的一个思考，就是：未来如何在各个环节减少人力的压力，进而减少用工成本？通过技术来降低用工成本和压力。未来世界其实将会减少接触。更少的接触，不代表没有社交，社交当然必不可少，所以需要社交距离，但是能不需要接触的时候，就要尽量避免。

　　比如说要缴费，一定要去网点缴吗？要办信用卡一定要去网点办吗？如果办信用卡通过电话，机器人能否帮助客户自动解决这些繁琐的事情。以这些契机，未来可以落地到哪些场景来帮助人类真正提供有价值的服务？其中很重要的一点，要解决人与人沟通、交互的问题，它靠的是语言，所以我们必须要把人类的语言懂透、摸透，通过计算机语言，把语言变成一个可计算的东西。这门学科非常窄，但却是最高深的一个学科，因为它不但要了解人的心理，还要了解语言学，还要了解人机交互，三门非常重要的技术学科，了解这三项之后，你才能够真的称得上能够懂计算机语言。我们讲情感计算模型，就是建立在心理学交互的模型上，需要把语言学和情绪情感融入到最先进的人工智能，才能称得上是懂交互的。交互不仅是触屏这么简单，语音的交互只是一个感官的交互，眼睛看到图像也是感官的交互，图片并不会跟你对话。真正的交互应该是相互的过程，是动态的。人类的大脑里面在想的，当他讲一句话的时候，他的context是什么？他的情绪是什么？这是非常重要的，所以需要把计算机语言、自然语言处理跟心理学融合在一起，才有办法达到真正的交互。这条路需要非常多的努力。

　　NLP未来关键技术点

　　单从NLP的角度来看，那么自然语言处理的技术难点有哪些？这是竹间做了5年，我个人做了20多年来的总结的一些经验，以前还有很多技术难点，我们在一一克服之后，随着技术不断发展又会有新增的技术难点，当然也越来越有挑战性，并且越来越有价值。第一点，少样本零样本的学习。这是目前这两三年来预训练模型的崛起，让大家能够开始去思考的问题，能不能用更少量的样本和数据进行训练达到预训练，未来能让语言模型更通用。所以这是一个挑战方向，待大家共同努力减少学习样本，让模型交互的模型更丰富，能够更快的去完成训练。第二点，预训练模型的压缩。当然大家知道预训练模型它需要的dimension非常广，需要的数据就非常多，搭建出的模型也非常大，如何尽量压缩，如何能够超越Bert，做到比Bert更小，训练速度更快，所需样本更少？这样的一个模型，是要靠大家融入各个方面的经验进行优化迭代。

　　第三点，是很重要的一点，即自然语言处理是在处理人的语言，缺少了知识，认知，包括常识。以前做词向量，做句向量，把词变成一个向量，用向量来计算，这里面是缺少知识和常识，更没有上下文的分析。现在的技术中慢慢开始加入上下文的解析，但仅凭上下文还是没有逻辑性的，缺少了知识和常识的NLP，没有认知交互在，就没有办法达到有意义的交互。那么很重要的一点，竹间的核心就是做多模态，多模态的计算，要把情绪再加入交互，把语音、语义、图像，人的眼睛能看的，耳朵能听的，脑袋能思考的，嘴巴可以说的都融合起来做多模态的交互。有些时候不需要语言，用眼睛交互，有些时候不需要语言，用表情交互，喜怒哀乐用在各个不一样的场景，有些时候通过声音的相应的语调识别情绪，当然情绪识别不仅仅是识别语调声音，所以需要把这些融合成为多模态，这是最困难的部分，也是我们最终要达到的目的。能够仿真人能够达到多模态的交互，加上有认知的交互，加上有情感的交互，才是我们做人机交互的最终的一个目标。今天大家在做的词向量也好，Bert也好，语义的理解都是一个步骤，要达到一个多模态不能做完语义理解再去做，一定要同时间结合整个文化发展、经济发展、人类历史发展的脚步去学习，是一个累积的过程。自然语言生成是非常重要的，人的语言是有逻辑性的，不是深度学习模型不可控的去随便生成一句话，也不是靠大量互联网的语料捞一个句子来进行对话，否则就会没有逻辑可言。所以能不能生成自然语言，需要进行有逻辑性的交互。当然你有可能在进行闲聊，闲聊就没有逻辑性，是情感性，情感也是一种逻辑，人类rational、emotion，这两项都加入到自然语言生成NLG的部分，那么这样的自然语言的生成才是能够达到完整的人机对话。很重要的一点，知识的发现跟推理在交互里面是非常重要的。交互里如何去Auto discover一个knowledge，新的实体，新的知识，在这个知识上进行交互，这个叫contextual，也就是上下文如何去识别如何去提取。需要理解，实体的自然发现，知识的自动发现，累积起来，才能够解决上下文的问题。上下文不是只有指代消解，更重要的是知识，知识可能有多个实体多个属性在里面，对话里的上下文它还要解决自动去发现知识，自动去发现对话里的信息，达到顺畅的上下文的交互，自然就形成了所谓的多轮交互。所以现在的对话交互是基于认知AI、情感AI，基于双向的交互性AI，需要达到contextual上下文各个信息的理解，才能进行Compose text，这叫做Goal-oriented dialogue，Goal-oriented conversation。每一个gonversation还是一个goal，所有要解决的一个交互都是要解决一个goal，可能当中需要完成多个goal才能达到一个交互。

　　所以除此之外很重要的一点，在深度学习里会碰到的一个问题就是模型越复杂，越不可控，也可以说超出了可控范围。通过什么方式能保证人工智能技术交互技术是可控的呢？需要做到一点，在交互的时候得到的信息，识别到的知识等所有的实体都是可解释的。机器从哪里学来的？怎么学的，学到了什么？可解释，才可控。Humanity for AI最终要保护人类，不是伤害人类。It is to help human to live better，所以很重要的一点，机器学习的数据、语料、文本、图像是不是都是可解释的。

　　那么接下来我探讨语义解析的难点怎么样去解决。很重要的一点就是场景，有了场景我们才能够把自然语言处理进行应用去发挥价值，在运用到场景里也产生更多的数据反哺。那么如何去实践复杂的场景？比如：逾期的提醒、快递的寄送、问卷的回访，我们自己做过几百个不同的场景，每一个场景，要分析各个不同层面的技术来解决。那么类脑的语言的解析层，人的大脑有超过十几亿的神经元agent，每一个agent都代表一个工作，如何去拆分成最小的单位去解析，然后理解。包括上下文的理解、知识的推理、指代消解等非常多，数十个不同的小的components去解决。那么还有底层的算法，包括internet、分词、词性、NER、关键词、依存句法分析、语义句法分析、语义角色标注的部分等等，数十个语言学的模块，能不能通过AI去完完全全，一个一个的用最新的机器学习跟深度学习的方法构建出来，综合语言学的部分，这是语义解析的一个难点。举个简单的例子，“购票成功，但是不出票怎么办？”这句话的意图很简单：我想要知道我的票已经买了，但是不出票，这需要怎么解决？但是如果中间有一点不同，比如说：“我购票成功，但是取不出票怎么办？”不出票跟取不出票差一个字差别却很大，取不出整体是一个动词，不是取/不出，中文的部分没有空格，所以需要解决很重要的一个分词的问题。一般市面上的分词工具基本都解决不了这个问题，无法分辨“不出票”和“取不出票”。那这样的问题需要如何解决？累积非常多的行业数据，还要跨行业地去解决，所以要有众多的数据跟众多的模型搭建，才能在一个语音引擎里让解析变得更通用，碰到这样的问题才能理解说话者真正的语意是什么。其实这个是非常难攻克的一个问题，竹间现在已经攻克了。

　　举个例子：上海话中“我不要太喜欢你这双鞋子”一般的分词或者是翻译器都会翻译成I don't like this shoe too much。但这句话的正确含义其实是：我太喜欢这双鞋子了，这就是为什么无法理解语言的真正含义进行翻译，这样的语料没有办法产生一个非常精确的可解释的路径。

　　还有一点是，如何加入认知的部分，加入人类知识、计算的部分？我们的人脑是可以进行逻辑计算的，我一个月用1万块，那么一年就会用12万。但是目前一般的语义对话聊天机器是完成不了计算的，如何把实体数字与常识知识融合在一起，让整个引擎可以进行计算？举一个例子，申请信用卡、申请贷款，或者是申请保险时，那么保险公司或者贷款公司，会需要进行风险评估，对收入进行询问，如果你回答了：我月薪2万，我老婆是个课程顾问，一年收入也在20万左右。那么到底你们家收入是多少？一般的分词分不出来的，因为这里面有什么呢？首先涉及多类型的NER的抽取，一个月2万，还有一年20多万，能不能去解析这20多万是年薪，2万是月薪？再进行总和，这就是机器模型要去完成的。那句话中还包含这样一个信息“我老婆是课程顾问”。所以那句话中包含两个实体，“我”跟“我老婆”中间还有relation，当然relationship是配偶关系，能不能把这个信息页也抽取出来，就可以构建有知识的influence，再加上computation可以计算出家庭年收入是2万×12+20万=44万。得出的结果再传到风控系统中进行评估，评估结果再通过机器人传达给客户。这个叫做人机对话，接入企业的内部的计算系统，达到一个complish一个test一个goal，这是最经典的一个例子，看似简单其实非常难实现。这不仅仅是一个闲聊机器人或者一个语音助手，需要具有认知、常识、计算、语言学，通过整个contextual理解，才能获取即使只有3个字亦或30个字里的真实信息和意图。如何把对话信息都准确抽取，就是现在需要完成的最重要的工作，而竹间现在已经能达成不错的效果，未来还会继续努力去突破更多更难的语义问题。

　　语义解析中还有一个难点，举个简单易懂的例子：“开通手机银行就能缴燃气费吗？怎么开通？怎么缴？”这样一个问句中“开通手机银行能交燃气费吗”这是一个常用问答——Frequently Asked Questions即FAQ，但是句子中紧接着“怎么开通？怎么缴？”包含两个意图：第一，怎么去开通手机银行；第二，怎么去缴燃气费？所以在这个句子中包含一个常用问答和两个意图。所以机器人需要解决三件事情，首先要去提取关键信息，手机银行是一个关键信息，燃气费是一个关键信息，开通缴费是一个关键信息，通过组合后，进行多意图解析，再根据事件逻辑跟后台系统对接，并进行回答，还可以通过推荐问进行引导，与用户连续对话进而解决用户的问题，这样就可以形成一个完美丰富的服务闭环。所以多意图多实体，信息抽取这一门学科已经发展了几十年，直到现在我们还在继续优化它。Information mining、Information retrieval这些传统的文本分析、文本处理的技术，竹间今天用人工智能来实现。

　　竹间智能646战略

　　最后向大家介绍一下竹间的三大支柱——“646战略”。包含竹间的6大的核心技术，这是我们一直在聚焦的方向；4大核心产品平台，是5年来打磨的成果，它既是一个平台，也是一个产品；在6大行业里，竹间已经建立跨行业领域的合作。

　　6大技术方向包含自然语言处理、知识工程、深度学习&AutoML、文本数据中台、视觉计算、语音识别，集成在竹间的Bot Factory™平台。竹间所有内部开发和客户定制开发都是基于自动化的机器学习平台上进行的，包含Finetuning，Pre-train等各式各样不同的模块，才能够做到零代码开发。二次开发，客户也可以使用自己开发好的模型代替我们自建的模型，所以整个Bot Factory™它是一个非常强大的模块、引擎，当然也包含了庞大的NLP的技术模块在里面。而文本数据中台是解决企业里长文本分析应用，视觉计算也是竹间累积近5年的人脸的表情，情绪情感识别技术，像口罩识别、活体识别等应用。语音辨识是竹间除了语义之外非常擅长的部分，现在竹间的ASR和TTS技术已经向科大讯飞、阿里看齐。竹间把语音和语义技术结合，形成全双工全场景AICC解决方案。

　　那么由这6个技术，我们在这几年来的沉淀出来4个平台，Bot Factory™的平台，能够零代码一键部署，能够让用户不用写代码，就可以创建机器人。在某些跨行业领域里，竹间的机器人已经可以达到零启动的水平，也就是不需要训练，准确率可以达到80%以上，那么再加上后期的语料训练和实际的运行准确率可以提升至95%甚至于97%。

　　AICC是竹间的AI Contact Center TotalSolution，赋能于企业的Callcenter，比如说跟竹间合作的Avaya，我们把AI技术放到Callcenter里去，现在竹间在Callcenter里有八大不同的产品，AICC的产品包括智能客服，AI质检，辅助坐席，陪练机器人，培训，用户画像分析，还有营销的分析，整个形成AICC的全方位解决方案，那么把语音跟语义再融合，我们是一个全场景的AICC解决方案，再加上我们的语音、语义、图像的Total Solution，那么企业就不需要再找另外不同的AI厂商再去做非常复杂的集成了，这就是竹间能够提供一个什么？一站式的企业级的人工智能平台，这个平台里面是由4个平台组成的。

　　还有NLP的平台，它不仅仅是NLP的API，它更是一个NLP的Operatingsystem，企业客户及端客户需要做NLP二次开发的，可以部署这套系统，这套系统能够让企业去进行数据处理、训练、运维、测试跟上线，NLP平台的27个模块能够帮助企业去做比对，完成校稿、审稿等很多业务。

　　竹间的Gemini平台，它是一个更强的认知型的平台，Cognitive engineering的平台，通过自动化来构建知识图谱，拥有庞大的语义解析能力，有OCR能力，有image的能力，能够去解析非结构化数据，它有一个自动处理的pipeline，能够做属性的自动挖掘，实体的自动挖掘，模型的Finetuning，能够自动发现实体跟属性，构建知识图谱。那么它不仅仅是构建知识图谱，它是一套整套的技术平台，也就是说整套的技术平台可以license给到企业，让他们用这个技术平台去自动构建知识图谱，而不需要用人工去构建知识图谱。现在传统的知识图谱的一些厂商，他们是以人工通过一个个的实体连接创建知识图谱，这不属于自动化。而竹间的Gemini是可以通过自动化创建知识图谱，它可以通过解析100万个的文档，200万个文档构建一个知识图谱，也可以给它预先定义的词库，预先定义的knowledge，它也会自动Auto discovery，发现属性发现实体，那么可以形成一个人机交互，它做不出来东西再进行人工干预，所以它是一个自动化，构建知识图谱的工程，也有inference的引擎在里面，还有一个很强大的process引擎在里面，可以处理所有流程自动化的问题。

　　这4大产品平台是我们累积6个技术在6个行业里过去5年内沉淀下来，包括金融行业，智能终端行业，像智能手机，包括传统行业、互联网行业、医药医疗，还有教育行业6大行业，比如说银行类的，有北京银行、建设银行等等，还有AIoT华为、OPPO，还有优必选、科沃斯，央企的客户有华润、招商局轮船、中广核等等，竹间帮他们落地了很多不用场景，有几十个不同的应用。那么这些年来我们也非常感谢能够跟数百个标杆企业，包括很多这些行业里面数一数二的大型企业。今年在整个疫情爆发之后，更多的企业用户已经开始要采用NLP的这些场景了，所以NLP的产业是在复苏。我相信NLP会是比视觉产业跟语音产业大上上百倍甚至于上千倍的一个产业，在未来的十年二十年里，它会是人类交互的一个operatingsystem的主要核心技术。

评论排行

推荐阅读

专题

大家都在看

CTI论坛会员企业