您当前的位置是:  首页 > 资讯 > 国内 >
 首页 > 资讯 > 国内 >

壹鸽AI技术小贴士-垂直应用场景下历史对话数据的采集及分析

2020-08-04 09:12:04   作者:   来源:CTI论坛   评论:0  点击:


  今天,壹鸽科技为大家带来的AI技术小贴士为“垂直应用场景下历史对话数据的采集及分析”。
  构建人机对话系统过程主要包括分析定义、知识编纂、系统搭建、构造应用及积累迭代几个阶段。
  其中,知识编纂和系统搭建之间是交替进行的,基于已编纂的知识先搭建模型查看其效果,再反过来补充知识。另外,当模型搭建好之后,会进入积累迭代的过程,该过程可长时间持续收集用户数据,根据数据进行某种动画的或人工辅助的标注,从而产生数据回流到知识编纂阶段,进一步丰富语料、模板、词典等,这是对话系统构建流程中规模较大的产品持续迭代阶段,如下图所示:
图:人机对话系统的构建过程
  为有效支持产品的持续迭代,需要人机对话系统满足两个要求:
  • 知识库的构建维护,方便管理员内部进行知识库的创建;
  • 流程的可配置,可采?组件化的思路,只需要拖拽出相应的功能节点,完善节点配置项,即可实现?个复杂的完整对话流程。
  一、对话数据采集
  垂直领域或者被称为封闭领域的机器人,是指对话系统的输入和输出的空间可能是有限的。这些机器人系统都试图实现一个非常特定的目标。机器人通过分发功能模块(在人机对话过程中初步获取用户意图)对当前会话做判断与分发,分配到相应的服务组件中,机器人的对话流如下图所示:
图:用户对话流
  由上图易见,一通热线电话是由多个主节点及子节点构成。本文中主节点具有分发功能,可分为开场白分发主节点、非开场白分发主节点以及通话结束主节点,能够将当前对话流分配到相应的服务组件中执行任务流程;任务流程是由多个子节点构成,通过多个轮次的对话来获取必要的信息以最终得到明确的用户指令方式。以快递领域机器人为例,热线通话标志如下图所示:
图:热线通话标志
  在上述分析中可知,对话系统主要实现分发和执行任务,因此采集对话数据需要在相应的节点上进行埋点对会话交互数据进行标志,如下图所示:
图:对话历史采集埋点示意图
  二、对话数据分析
  把特定的对话节点看作一个问题域,可较好的捕获用户说话的习惯和领域用语,某一节点场景下机器人与客户的对话可限定在某个问题域内进行。利用日志数据,学习用户的语言使用习惯,从日志中自动抽取文本信息并进行结构化存储,如下图所示。
图:节点数据分析示意图
  ASR识别后文本是由一个个词构成的词序列,其中某些词对于理解整个句子有着非常重要的作用,这就是所说的关键词。在这一步要做的就是提取出这些关键词,形成子串,作为下一步“问题理解”的输入,这种处理同时也是为了降低“问题理解”时的难度,如下图所示。
图:子串的问题理解示意图
  对句子进行准确的理解,并不需要考虑句子中的每个词,只需对几个蕴含关键概念的子串进行理解就能把握句子的意义。词串识别技术从语句中抽取用户关心的关键信息,能够降低对识别系统和环境噪声的要求。
  三、分发主节点数据分析
  分发主节点主要实现分发功能,将对话分配到问答类数据服务、任务类数据服务、拒识类数据服务及其他服务,如下图所示:
图:分发主节点数据服务类型
  以快递物流领域的对话语料为基础。对话过程是两个人通过电话以一问一答的形式进行的,电话一端代表客户,另一端是智能语音客服机器人,客户端说话方式完全是自由的和随意的。
  为了表述方便,我们首先给出如下定义:
  1、定义1
  对话语句(Utterance)从对话者一方开始讲话到讲完停下或被对方强行打断为止,所说的全部内容称作一个对话语句。
  2、定义2
  对话子句(Dialog sentence)一个对话语句中所包含的关键子句,称作对话子句。
  3、定义3
  N-Gram元组(N-Gramtuple)一个对话子句中所包含的N-Gram关键字符串,称作N-Gram元组。
  对Utterance进行子句抽取,如下图所示:
图:子句抽取流程图
  对Sentence依据数据服务类型进行标注,索引化存储,如下图所示:
图:分发主节点数据结构化示意图
  对一条Utterance抽取Sentence的情况如下图所示:
图:Utterance抽取Sentence的分类
  对于Sentence=[]的Utterance在在线处理时需先通过前置精确匹配模块将稳定识别错误类、语气词类的Utterance精确指向到相对应的服务去,因此,在线数据处理流程如下图所示:
图:分发主节点数据在线处理流程
  关于垂直应用场景下历史对话数据的采集及分析的介绍就到这了,壹鸽科技后续将会为大家带来更多相关的技术讲解,敬请期待吧!
【免责声明】本文仅代表作者本人观点,与CTI论坛无关。CTI论坛对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

专题

CTI论坛会员企业