阿里 AI 新一代人机对话模型介绍

　　近日，阿里AI开源了新一代人机对话模型Enhanced Sequential Inference Model(ESIM)。ESIM是一种专为自然语言推断而生的加强版LSTM，据阿里介绍，该算法模型自2017年被提出之后，已被谷歌、facebook在内的国际学术界在论文中引用200多次，更曾在国际顶级对话系统评测大赛(DSTC7)上获得双料冠军，并将人机对话准确率的世界纪录提升至94.1%。

　　ESIM模型在智能客服、导航软件、智能音箱等场景均具有广泛的应用前景。阿里AI发布了相关论文介绍了该模型，雷锋网AI科技评论将其编译如下。

　　ESIM引入背景

　　极具潜力和商业价值的人机对话系统正在受到越来越多的关注。随着近来深度学习模型的引入，我们在构建端到端的对话系统过程中有了更高的成功几率。然而这一对话系统的构建仍然充满了挑战，它要求系统记忆并理解多轮对话文本，而不是像单轮对话系统那样仅仅考虑当前的话语内容。

　　多轮对话系统建模可分为基于生成文本的方法和基于检索的方法。基于检索的方法将从多轮对话的候选池中选择最佳回复，该方法可视为对多轮回复文本选择任务的执行。选择回复文本的典型方法主要包括基于序列的方法和基于层级信息的方法。基于序列的方法通常将对话连接成一个长序列，而基于层级信息的方法通常会分别对每个对话文本进行建模，然后再对话语之间的交互进行建模。

　　最近，有研究工作称基于层级信息的方法与复杂神经网络结合可以实现比基于序列方法更显着的增益效果。但在本文中，我们依然选择研究基于序列的方法即增强序列推理模型(ESIM)的有效性，该模型最初是为了自然语言推理(NLI)任务而开发。

　　在DSTC7对话回复选择挑战赛中，我们的模型在两个数据集(即Advising和Ubuntu数据集)中都排名第一。除此之外，我们的模型在两个大型公共基准数据集(LowesUbuntu)上都比以前所有模型的效果更好，其中也包括上面所提到的最先进的基于层级信息的模型。我们的开源代码可在https://github.com/alibaba/ESIM上获得。

　　基于层级信息的方法通常会使用额外的神经网络来对多轮对话之间的关系进行模拟，该方法需要将多轮对话中的文本进行分段截取，使其具有相同的长度并且短于最大长度。然而，每轮对话的长度通常在实际任务中会有很大的变化，当使用较大的最大长度值时，我们则需要在基于层级信息的方法中添加大量的0进行填充，这将极大地增加计算复杂性和内存成本；而当使用较小的最大长度时，我们则可能在多轮对话环境中丢失一些重要信息。

　　我们建议在多轮对话回复选择任务中使用基于序列的ESIM模型来有效地解决基于层级信息方法所遇到的上述问题。该方法将多轮对话内容连接成一个长序列，并将多轮对话回复选择任务转换为一个句子对的二进制分类(即下一个句子是否是当前对话的回复)任务。

　　与基于层级信息的方法相比，ESIM有两个主要优点。首先，由于ESIM不需要使每个话语具有相同的长度，因此它具有较少的零填充，可以比基于层级信息的方法更具计算效率。其次，ESIM以一种有效的方式隐式地模拟对话中话语之间的交互，而并没有使用额外复杂的网络结构，详情如下文中「模型说明」部分所述。

　　任务描述

　　对话系统技术挑战赛(DSTC7)划分了三个不同的赛道，而我们提出的方法则是针对「端到端的回复选择」主题的赛道。该赛道侧重于面向目标的多轮对话，着重于从一组对话候选文本中选择正确的回复。参与该赛道的比赛系统不能使用基于人工数据或基于规则的数据，而需要使用比赛方提供的Ubuntu和Advising这两个数据集，这些在「实验部分」我们会做详细的介绍。

专题

2019中国客户体验...: 　　由CTI论坛主办的　将于2019年10月17日在深圳益田威...[详细]

2019中国呼叫中心...: 　[详细]

小i智慧学堂: 　　小i智慧学堂是一个AI应用人才培养与发展平台，致力...[详细]

北京InfoComm Ch...: 　　一年一度专业视听和集成体验行业盛会北京InfoComm ...[详细]

评论排行

推荐阅读

专题

大家都在看

CTI论坛会员企业