壹鸽AI技术小贴士-标签挖掘介绍 -

QQ MESSENGER:

E-mail:liyuyang@egosai.com

TEL:400-656-6652

新闻中心/NEWS

分类：全部公司新闻(15) 成功案例(5) 解决方案(5) 行业文摘(4) 最新产品(2) 行业动态(1)

壹鸽AI技术小贴士-标签挖掘介绍
2020-11-09 10:18:32

随着壹鸽AI技术日趋成熟，最具代表性的智能语音客服机器人已经在快递物流、银行、保险、运营商等行业有了广泛应用。它在实时语音交互的基础算法层面，除语音识别、语义理解之外，集数据标注、训练于一体。平台能将AI的能力完美融入到客户应用场景中，许多人对此感到困惑，壹鸽智能语音客服机器人是如何进行语料整理标签挖掘分类的呢？下文就为大家详细的来介绍下。

一、语料

在“对话机器人”领域，语料通常指的是人与人、人与机器人之间交互时所产生的原始对话。

举个例子，假设你的企业需要为用户提供快递查询的客户服务。你的终端用户和你的运营人员，发生了如下一段对话:

上述这段对话就是一段原始语料。进一步地，在本文档使用“语料”一词的绝大多数场合，语料将特指为上述对话中终端用户所说的那一段话。

如果机器人已经上线, 开始服务用户, 就可以从平台的历史对话页面持续获得所有的用户历史交互语料。拿到数据之后，发现截止至今已有3千万这个量级的对话数据，就是客户和智能客服的聊天数据，然后发现每天可能有10万左右的新增消息。

我们要去看看数据，到底对话场景中发生了什么，用户在关注什么，从数据里面要去得到一些我们的先验知识。然后接着要从简单的MVP（最小可行产品）做起，再去从MVP迭代出更复杂的系统。

二、标签库概述

用用户的文本信息构建一个基础版本的用户画像，大致需要做以下这些事:

1、把所用的非结构化文本，去粗取精，保留关键信息，构建高质量的标签库。
2、根据用户口述文本，把标签传递给用户。
3、定期更新。

一个挖掘好的标签库，怎么衡量它的质量高低？

标签覆盖面：所用的标签在覆盖用户时，能够覆盖越多的用户越好，如果全部标签不能覆盖全部用户，就会有流量浪费。

标签健康度：量化标签平均覆盖用户的程度，单个标签的用户覆盖数量显然符合齐普夫定律，热门标签严重倾斜，这样倾斜的分布熵较小，但是好的标签库，其标签覆盖分布熵高，熵越高覆盖越均匀。

标签经济性：标签之间的语义相似性越小越好，因为一个标签占据用户兴趣向量中的一个维度，如果两个标签并没有提供两个不同的语义，却占据两个位置，那么这样的标签库显然性价比很低。

标签库的构建方法有，如下图所示：

两类标签对比如下图表所示：

因此，构建一个高质量的标签库，显然不能只依赖其中一种，而应该两者结合使用，如去中心的标签需要专业人员把控质量。

三、标签挖掘方法

电话客服获取到的用户文本，是“非结构化”的，但是计算机在处理时只能使用结构化的数据索引检索，向量化后再计算。利用成熟的NLP算法分析可以得到如下信息：

关键词提取：最基础的标签来源，也为其他文本分析提供基础数据，常用TF-IDF和TextRank。

实体识别：省市地址、姓氏、物品、重量等，常用基于词典的方法结合CRF模型。

文本分类：将文本按照分类体系分类，用分类来表达粗粒度的结构化信息。

文本聚类：在无人定制分类体系的前提下，无监督地将文本划分成多个类簇也很常见，虽然不是标签，类簇编号也是用户画像的常见构成。

主题模型：从大量已有文本中学习主题向量，然后在预测新的文本再各个主题上的分布概率。主题模型也很常用，它其实也是一种聚类思想。主题向量不是标签形式，但也是用户画像的构成。

嵌入：也叫作Embedding，从词到篇章，都可以学习其嵌入表达。嵌入表达可以挖掘出字面之下的语义信息，并且用有限的维度表达出来。

四、语料的用途

实现一个智能机器人有两个核心步骤：

第一，训练机器人的学习能力，让机器人学会理解和判断你终端用户的意图。

第二，评估机器人的学习效果。只有满足要求，才能“上岗”成为你的数字员工。

在上述两个步骤中，高质量的语料都起着至关重要的作用。

1) 高质量的语料可以让机器人学得更多、学得更好。

2) 高质量的语料可以让运营人员更容易评估机器人的效果，不会出现测试阶段和上线后效果差异巨大的情况。

如果你已经获得了一份高质量的语料, 那么, 在效果优化模块中，你可以将这份语料应用在如下几方面：

1) 短语挖掘

将语料传入短语挖掘来发现业务场景中常用到的一些实体。

2) 句子挖掘

将语料传入句子挖掘功能来发现业务场景中的知识点、相似说法。

3) 相似说法学习

将语料传入相似说法学习, 来审核待定相似说法，丰富机器人的知识。

4) 模型评测

对这份语料进行标注并传入模型来评测模型效果。利用评测的结果，来决定是否让机器人“上岗”服务。

关于标签挖掘的介绍就到这了，壹鸽后续也将会为大家带来更多相关的技术讲解，敬请期待吧！

深圳市壹鸽科技有限公司

主营：壹鸽科技是一家专注于“通讯+人工智能”解决方案的技术驱动型公司

QQ MESSENGER:

E-mail:liyuyang@egosai.com

TEL:400-656-6652

新闻中心/NEWS

壹鸽AI技术小贴士-标签挖掘介绍
2020-11-09 10:18:32

深圳市壹鸽科技有限公司

主营：壹鸽科技是一家专注于“通讯+人工智能”解决方案的技术驱动型公司

QQ MESSENGER:

E-mail:liyuyang@egosai.com

TEL:400-656-6652

新闻中心/NEWS

壹鸽AI技术小贴士-标签挖掘介绍2020-11-09 10:18:32

壹鸽AI技术小贴士-标签挖掘介绍
2020-11-09 10:18:32