您当前的位置是:  首页 > 资讯 > 国内 >
 首页 > 资讯 > 国内 >

朗深:智能电话机器人的语义解析

2022-04-13 09:25:47   作者:   来源:CTI论坛   评论:0  点击:


  一、语义解析架构及流程
  快递领域的特点是问题通常是为一些重复性的服务请求,比如退货,查快递,下单,查运费等,实现的是一个非常特定的目标,客户只能同智能语音机器人聊设定好的固定主题,其可能的输入和输出是有限的,只需尽可能有效地完成具体的任务即可。这类对话系统从整体架构上可分为两层:
  1)意图识别层:识别语言的真实意图,将意图进行分类并进行意图属性抽取。意图决定了后续的领域识别流程,因此意图层是一个结合上下文数据模型与领域数据模型并不断对意图进行明确和推理的过程。
  2)问答匹配层:对问题进行匹配识别及生成答案的过程。在对话体系中可按照业务场景进行不同典型问题类型的划分,并且依据不同类型采用不同的匹配流程和方法。
  领域意图识别一般只要识别用户语义所指的类别,行动类意图则是在一个领域内的操作类意图,电话呼叫场景下意图识别任务有着以下难点:
  1)数据量匮乏:一般情况下,一个新的领域任务都会面临冷启动的问题,相应的意图识别也面临着缺少足够训练语料甚至无训练数据的问题,因此更多真实情况下,意图识别一开始都是小数据建模问题。
  2)语音识别错误传递:很多情况下,意图识别的对象并不是准确的文本,一方面可能是用户拼写错误,另一方面可能是由于语音识别的误差。
  3)短文本意图不明显:真实口语交流中,用户的表述一般属于短句,很多情况下单句并不具备足够的信息判断其意图,给意图识别模型增加了困难。
  针对以上主要问题,一般从以下几点考虑:
  1)针对数据量匮乏的问题,一方面可以借鉴迁移学习策略,利用现有的大量文本数据或者己有的其他领域任务辅助当前的新任务,一种简单的迁移学习方法即是使用预训练词向量或语言模型结合简单深度神经网络模型对数据建模。另一方面,针对无训练样本或极少训练样本的新意图,一开始可以结合模板匹配或基于手工特征的传统机器学习方法做粗糙的意图识别,这种策略具有精准率高,召回不足的特点,可以再冷启动阶段快速构建意图识别系统,同时可以在小数据集模型拟合能力不足的情况下进行快速干预。基于小数据量搭建起基本系统,通过不断获取真实语料,返回来再迭代模型,优化模型。
  2)语音转写误差传递的问题在电话呼叫系统中更为突出,语音识别系统往往不能达到100%的转写准确率,因此,模型要对包含噪声的文本有相应的容错能力。通过实际样本分析可以发现,一般用户的拼写或者语音转写错误的字往往是正确文本的同音字。因此,引入字(当拼写错误时,分词系统往往无法准确分词)和拼音特征可以很大程度上缓解拼写错误和转写错误的问题。
  3)针对短文本意图不明的情况,一般将上下文信息考虑到意图识别的过程当中。而考虑上下文一般有两种方式,第一种是将历史信息直接加入到模型当中对当前文本意图进行判断,另一种方式则是直接根据当前领域、前一状态通过规则判断当前文本意图。一个灵活并且泛化能力较强的意图识别模块往往结合了多种方法,如上所述,这里,意图识别采用规则模板以及深度模型相结合的方法,其中规则模板的思路方法较为简单和传统。
  根据快递业务场景特点,语义解析分为了意图识别和智能问答两个子问题。因此设计了基于文本分类的意图识别模型,以及基于深度语义匹配的智能问答模型。
  1.提取用户语音识别转写后的文本首先通过数据预处理单元,进行文本去噪(过滤语音转写生成的语气词等)、分词、分字、提取拼音。
  2.预处理后的文本进入语义解析单元,进行通用意图识别,该部分依次进行模板匹配和通用意图识别模型,若成功识别为某一通用意图,则返回意图ID,否则进入步骤3.
  3.3进入业务意图识别,该部分同样依次进行模板匹配和通用意图识别模型,如果成功识别为某一通用意图,则返回意图ID,否则进入步骤4。
  4.进入智能问答进行语义匹配,如果成功匹配到标准问题,则返回问题ID,否则返回无意图。
  二、意图识别
  模型输入为文本,输出为该文本所属不同意图的概率。本文将意图识别模型抽象为三层,包括:嵌入层、编码层、输出层。嵌入层主要功能为生成词表示;编码层以词表示为输入,完成对句子进行编码,输出句子向量;输出层将句子向量进一步变换,计算损失函数,最终通过反向传播算法更新网络参数。
  三、智能问答
  智能问答的语义匹配模型的基本架构如图20所示。模型共分为输入编码层、交互层以及融合层:输入编码层使用双向LSTM分别对两个输入词嵌入做序列编码,以捕获更丰富的语义信息,该部分词嵌入也可以采用字符、拼音粒度的表示;交互层首先计算输入编码层表示的Attention特征,然后同词嵌入、输入编码层的输出特征拼接。拼接特征通过双向LSTM编码,进一步捕获带有相关信息的句子编码,作为下一层的输入;融合层对浅层和深层信息进行融合,并对最终相似度得分进行预测。
http://www.ounistar.com/

【免责声明】本文仅代表作者本人观点,与CTI论坛无关。CTI论坛对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

专题

CTI论坛会员企业