微软小冰武威：聊天机器人的演进之路

　　聊天机器人一直都是一个性感的话题，电影《Her》中那个风趣又善解人意的虚拟恋人，可谓是我们对于人工智能技术的美好遐想，但要达到那一步对于我们还是一场长途跋涉。

　　但这丝毫不影响当下聊天机器人的火热，尤其是随着近两年智能音箱的爆发。在AI的舞台上，微软小冰是一个明星人物，凭借着“邻家女孩”温柔可人般的形象，以及良好的交互体验，可谓风靡万千少男少女。

　　自2014年诞生以来，在微软（亚洲）互联网工程院诸位技术大牛的辛勤培育下，目前已经成长至第六代，从最初的闲聊走入更多应用场景，从大家熟悉的主持节目、唱歌、讲故事、写诗，到新闻评论、金融、智能家居、手机助手等都有它的踪影。

　　在近期举办的自然语言处理领域的世界顶级会议之一EMNLP（Empirical Methods in Natural Language Processing）上，作为6场Tutorial分享之一，微软小冰团队总结了他们在聊天机器人领域的探索。

▲微软小冰首席科学家武威博士

　　近期，智东西来到微软（亚洲）互联网工程院，与微软小冰首席科学家武威博士围绕聊天机器人技术进行一场深入沟通。透过微软小冰背后人机交互技术的演进，我们看到了小冰由最初单一模态的文字回复升级到如今可以用语音、文字、图像等多模态的交互，其背后对话模型也由检索模型升级到生成模型、共感模型，小冰由最初静态、被动的聊天机器人变成了一个动态、交互性更强的虚拟助手。

　　一、从单一模态到多模态演进

　　四年前，刚诞生的微软小冰只能在微信中被动的回复用户的文字消息，而如今它已经成长到第六代，逐渐具备了语音、视觉的能力；在交互能力上，也实现了从被动回复到主动交互的转变；在与6.6亿人类用户的交谈中，小冰的交互体验越来越好。

　　武威就微软小冰的技术迭代谈道，最开始小冰是一个单一模态（文字）的聊天机器人，等到了第三代的时候，小冰有了视觉感官。当时用户发送一张照片给小冰，小冰就可以“看”到这张照片，并基于这张照片跟用户进行聊天。

　　而随着小冰升级到第五代后，它有了实时视觉感官，此时小冰拥有了对视觉信息的动态感知能力。比如当你从小冰面前走过，向它挥手，它可以感知到这些动态的信息并作出回应。

　　在第六代小冰中，微软小冰团队又将实时视觉感官、听觉、全双工语音以及对话引擎进一步融合，形成一个交互能力更强的更智能的“物种”。

　　而这背后正是多模态交互技术，也是当下业界的一个研究热点。武威表示，“多模态一定是未来人工智能研究的一个方向。”多模态跨过了自然语言，是一种更加贴近人的交互方式。因为人的交互本身，无论输入还是输出都是多模态的，而做人工智能，我们本身就希望能模拟人的行为。

　　武威认为，从自然语言的角度来讲，多模态技术还处在行业的探索与发力期。目前大家都意识到了多模态的重要性，但是同时又缺乏相应的数据进行研究。目前无论是学界还是业界也都在进行一些数据集的建设。

　　小冰在多模态上也发展的较为靠前，目前微软小冰团队已经同构多感官融合的架构实现了一些多模态交互，比如你输入一段文字/语音/图片，小冰会根据它看到或听到的进行回复，而回复的内容可能是文字、语音或者一个表情等，武威认为这种交互已经是一个近似多模态的场景。

　　像目前的智能音箱，主要以语音交互为主，未来人机交互又是否会以一种模态为主模态呢？武威认为，这一问题要结合具体的交互场景来判断。但如果从人类交互的角度来讲，可能某一时刻，某一种模态扮演更加重要的作用，但基本上人所有模态都的需要的，所有模态都影响人的感知。

　　二、从回复到交互三种模型的迭代

　　最初微软小冰团队的目标是，无论用户给出怎样的输入，小冰都能够给出一个不错的回复，并且尽可能的将小冰与用户之间的对话维持下去。或许正是基于这样的目标，小冰在模型上经历了从检索模型到生成模型再到基于生成模型的共感模型，自身交互能力也经历了从被动回复到动态交互的演进。

　　在小冰诞生以前，搜索引擎的技术已经相当成熟，微软在做小冰时，将微软在Bing搜索引擎中积累的技术能力应用到聊天机器人中，就形成了检索模型。

　　武威介绍道，得益于搜索引擎的发展，检索技术更加成熟，随着深度学习时代的到来，它们能够更好的让机器学习特征，并建立更好的排序模型。检索模型的特点在于对数据库信息的重用，只要数据库中有对应的信息，机器就可能给出一个很好的回复。

　　但检索模型的局限在于，一方面如果索引中没有相关的回复，那机器人就没有办法给出很好的回答；另一方面检索模型是对相关信息的重复使用，这就导致回答相对单一，交互体验受到局限。

　　正是检索模型的局限性，学界与业界开始研究生成模型，就自然语言而言，目前生成模型也是一块前沿的研究领域。武威称，生成模型是未来对话研究的一个方向，未来还有非常大的发展空间。它是更接近人说话过程的一个模型，简单来说就是对语言的合成。比如小冰可以根据你的说话内容，合成出不同模态的回复，或者合成出不同性格的回复，这样回复的内容就会更加丰富，更加像人类的表达。

　　目前这两种模型都应用在微软小冰中，并承担不同的分工。武威介绍道这两种模型各有特点，检索技术非常成熟，直接使用已有的回复，并且符合语言的逻辑，相对来说效果会更好一些，在主流的聊天机器人产品上仍扮演着重要角色。

　　而生成模型是一个更自然的对人类交互进行建模的过程，但技术还不那么成熟，比如生成的回复，经常会是一些万能回复“我知道了”、“我也是”等，语言本身可能也相矛盾等，这些问题都是对话生成的一个研究重点，很多问题有待解决。

　　在两个模型的配合上他认为，生成模型更适合从全局出发，对人机交互对话的全流程进行把控，而检索模型可以解决目前生成模型做的不太好的一些问题，针对交互细节进行优化。比如在具体应用中，如果小冰识别到了用户的意图，并且能够在数据库中找到一个非常合适的回复，就可以使用检索模型进行回答；如果无法找到一个合适的回复，就可以依靠生成模型进行对话的生成。武威还补充道，在印度尼西亚、日本等地，微软的聊天机器人都是基于生成模型进行回复的。

　　但是在武威看来，单纯的生成模型在人机交互中仍然是一种被动回复，让回复的结果更加人性化，但还算不上交互。而共感模型是基于生成模型，逐渐解决的就是小冰从回复到交互的问题。

　　武威说，共感模型的关键在于交互，它是主动与被动回复的结合，是一个带有策略的动态的对话过程。比如在人与人的交互中，会有主动的一方与被动的一方，并且双方的角色也可能会不断转换，这构成了一个完整的交互过程。共感模型也是如此，它是一个动态的交流过程，小冰可以去察觉用户的对话意愿，来判断是该主动一点，还是多一点倾听，通过主动与被动的对话策略来引导对话的延续。

　　从检索模型到生成模型再到第六代微软小冰中的共感模型，武威称，这是一个由浅层、简单层次的回复，上升到对话引导和管理的过程。

　　三、NLP技术的前沿探索

　　但目前聊天机器人仍属于早期的探索阶段，尽管微软小冰已经在行业中走到一个比较靠前的位置，但也仍存在许多问题有待解决。

　　武威从技术与场景两个维度谈道，从技术上来说，如今的聊天机器人在回复上仍有很多问题，比如不相关、缺乏内容等；从场景来说，聊天机器人最终会走向什么样的场景也有待探索。

　　针对与当下行业在人机交互技术上的难点，他说机器如何更好的理解用户，怎么理解用户的意图，怎么能够产生更加流畅、内容丰富的回复，都是聊天机器人行业需要解决的问题，行业仍然在探索期。

　　尽管对话生成领域有大量工作致力于增强对话生成的多样性，但武威指出这一领域仍有较大空间，多模态尽管是未来的一个研究方向，但是多模态进入人机交互后，会带来怎么的新问题，目前行业都有待进一步探索。

　　而被誉为人工智能桂冠上的明珠的NLP（自然语言处理）技术，武威称，只能说我们有了大模型、大数据，我们可以利用它们产生一个不错的表示，但这个表示离理解有多远，则很难讲。

　　比如在机器阅读理解中，如果我们稍微波动一下数据，这对人来讲可能没有太大影响，但是机器就会产生较大的错误，这就说明机器在很多问题上理解的并不到位。此外端到端的生成模型就像一个“黑盒子”，我们很难解释为什么会生成这样的回复，这也导致我们很难进一步去解决其中的问题。

　　2018年伊始，阿里和微软亚洲研究院相继刷新了斯坦福大学发起的SQuAD（Stanford Question Answering Dataset）文本理解挑战赛成绩，一时间机器阅读理解得分超过人类成为一个热议的话题。

　　武威对机器阅读理解的这一进展持肯定观点，他称正是得益于SQuAD之类数据集的出现，我们在此基础上不断迭代算法模型，近几年来整个机器阅读理解取得了飞跃性的发展。

　　但是不能凭空说机器阅读理解超过人类，应该说在特定数据以及特定的评估准则下，机器可以跟人类水平持平，甚至在指标上超过人类。

　　尽管近两年NLP开始在诸如智能硬件、车载以及垂直行业领域开始落地，并且取得一些不错的效果，但武威认为NLP最终还是要回到通用上来。因为人理解世界是以一种通用的认知进行的，开放式对话才是人的一般状态。

　　此外他还强调道，通用NLP是基础，细分领域的NLP只有扎根在这个基础上，才能够有更深的发展。

　　但在通用NLP上，尽管有谷歌的BERT模型在11项NLP任务中都取得不错的效果，但数据背后模型究竟理解到了什么，都有待行业探索。

　　武威就自然语言谈道，当下已有机构将通用的开放式聊天对话和基于任务式的对话结合在一起去做相关的研究，并且微软小冰也在做相关领域的探索。

　　结语：多模态、个性化交互成趋势

　　通过与武威的沟通和微软小冰在人机交互上的一些探索可以发现，多模态交互、任务与非任务结合的对话方式等都可能是未来人机交互的一个研究趋势。

　　此外，他认为个性化也是聊天机器人的一个方向，目前很多高校、机构也都在朝着这一方向探索。微软未来也会在小冰框架基础上，生产各种各样的具有不同个性的聊天机器人。

　　要想推动聊天机器人进一步发展，武威认为一方面数据非常重要，另一方面在模型的方法论上也有待突破。比如当下我们深度依赖深度学习这种基于序列到序列的建模，但下一个这种级别的模型是什么？能带来本质变化的模型是什么？有有待业界去研究。

　　如果说电影《Her》代表了我们对人工智能的一种探寻，那我们还需要多久才能达到那一状态？武威谨慎地称很难评估，因为有些东西一旦能够评估，就说明你已经知道答案了，而NLP之所以我们当下难以攻克，正是因为我们目前不知道未来的答案是什么。

评论排行

推荐阅读

专题

大家都在看

CTI论坛会员企业