QQ MESSENGER:

E-mail:liyuyang@egosai.com

TEL:400-656-6652

新闻中心/NEWS

如何做好智能电话机器人客服
2019-05-18 11:48:22

壹鸽科技是一家专注于“通讯+人工智能”解决方案的技术驱动型公司,在为企业提供智能语音服务的过程中,壹鸽发力持续优化解决行业共同面临的三大问题:

一、语言识别不准确。

二、对话识别不准确(对话逻辑混乱)。

三、语音质检(全面覆盖的前提下提升质检效率),形成一个从前端信号处理—语音识别ASR—人机对话—声纹识别(性别识别+语音情绪判别)—语音合成TTS的智能电话机器人客服闭环式解决方案。

为打造这一电话机器人客服闭环式解决方案,壹鸽科技目前从单独的技术储备和对数据的积累与运用两方面入手。

在单独的技术储备方面,壹鸽科技从五项技术发力:

1、前端信号处理

智能电话机器人客服应用于通信系统,典型的会话信道大约只有40%的时间真正用于传输语音,其余的时间传输的都是静默和背景噪声。因此,需要在ASR前端采用一个语音端点检测器VAD来区分语音和静默以及背景噪声,通过提高ASR系统资源的利用率扩大ASR系统的并发识别容量。

同时,由于处理的数据量越来越大,需要处理的规模越来越大,从工程实现以及部署成本而言,还需综合考虑多路并行处理、实时性、易实现、资源占用情况以及大规模实现等诸多关键因素,设计实现大规模电话语音识别前端实时处理系统,完成对多路实际电话信道语音的实时处理,满足在大规模电信网中的应用需求。

除实现大规模电话语音识别前端实时处理系统外,还需使系统具备一定的容错性,确保在语音信号段判决错误的情况下通过声学拒识决定是否接受ASR识别后文本,并且要通过句间停顿时间自适应调整清晰定义句子边界,从而大大降低ASR的计算量和处理时间,提高系统的识别精度。

有效人声智能检测可以有效解决噪音和无效语音。目前,主要是通过采集不同环境的噪音,基于深度神经网络的训练出对应声学模型,进行过滤,把有效的语音传送到云端进行交互。

动态端点检测算法通过句间停顿时间自适应调整清晰定义句子边界,实现从连续输入的数据流中检测出包含完整用户意图的语音送入语义理解模块,可以很好的解决用户的停顿,因为在人机的交流过程中,在一句包含完整意图语音中,停顿是很常见的现象。

另外在持续的语音交互过程中,必然会有无效的语音和无关说话内容被吸收进来,所以拒接受是必须。在壹鸽智能语音交互平台我们专门构建了一套基于多模态的ASR后文本拒接受系统,从声学信号(声学事件检测)、语义等多个方面对接收的语音进行拒接受判断。

同时,基于声学事件检测,可实现按需打断功能,只要必要的时候才会去打断机器人说话,如果是噪音,杂音,则不需要打断。

2、声纹识别

智能电话机器人客服的应用场景十分广泛,所采集到的语音信息本质上是混合信号,主要包括三大方面的信息:语音中包括的内容信息(语言/ASR后文本信息),语音中含有与说话人特征相关的信息(如性别、年龄以及情感状态等)和语音混杂在一起的背景环境声音信息,但是目前业内绝大多数智能语音客服机器人一般均不能同时识别出说话人所讲的内容、其身份、年龄、性别、情感状态甚至背景声等多维信息。

壹鸽科技正在大力构建一种全新的多维语音信息识别系统,使得客服机器人具备同时识别说话人身份、年龄、性别、情感状态的能力,具备理解人类情感和表达的能力,准确捕捉语音的精确内涵,拟人化地与人类进行自然而富有情感的沟通,致力于打造有温情的智能语音客服机器人。

对于外呼型智能电话机器人客服,可识别用户在客服咨询中的情绪,在自动回复系统外,如检测出用户负面不满情绪,则触发人工客服介入。在人工客服场景下,也可用于监控客服人员的服务态度。

对于呼入的任务型智能电话机器人客服,可识别用户的情绪,根据不同的对话情绪,选择不同的回答策略进行答复(例如回复语速和文本简洁程度差异等)。

3、语音识别ASR

智能电话机器人客服的核心是语音识别和语义识别。语音识别作为电话语音机器人的耳朵,在安静环境下语音识别准确率接近97%,具备解决“听”的能力,但由于环境噪声、信道噪声等噪声问题,口语对话语音的形式多样性。

例如方言,口语助词、迟疑、重复与停顿造成的语音不流畅,多说话人重叠,以及句子边界定义模糊等,导致实际环境中语音识别的正确率一直不尽如人意,识别率甚至可能不到70%。

实际生产环境下,智能电话机器人客服的语音识别引擎大多采用科大讯飞、百度、阿里、腾讯、捷通华声等主流厂商,其词错率WER和句错率SER相差不大。站在产品角度而言,更需将语音识别后文本准确度评价定为3种:

1)没有发生语音识别错误的句子,2)有语音识别错误发生但不影响正确理解的对话的句子,3)有语音识别错误发生但影响正确理解对话的句子。为能快速准确的量化上述3种语音识别后文本准确度评价,需借助语言模型困惑度来划分。

简单地说,语言模型就是用来计算一个句子的概率的模型,也就是判断一句话是否符合电话机器人在某垂直应用领域的说话习惯。

另外,ASR识别准确率的提高,关键还是在于“特定”,在收集特定领域的数据之后,再通过迭代迁移学习算法等等,不断地将模型进行更新。

4、人机对话

壹鸽科技以智能电话机器人客服主要业务作为分类目标进行聚类和分类,研究多分类器的可行性,解决实际通话内容的分类问题。通过对智能语音客服业务内容和业务频度等进行聚类和分类,对客户语音录音进行文本标注,并对关键词、热词、常见用户说法等进行归类和汇总,建立了智能语音客服语义解析模型,实现对文本内容进行过滤、分类、聚类处理以及顾客兴趣模式发现、知识发现等方面的文本挖掘、信息检索。具体包括以下几方面:

(1)通话话题分析

实现对通话文本的自动汇总和趋势分析,从而挖掘出用户热点问题、关键话题等信息。

(2)文本规则解析

对通话过程中敏感信息、禁忌语等多种内容的监控,可自定义监控范围。

(3)通话主题分类

针对通话内容分析并自助分类通话内容,极大地节省人工标注通话类别的工作量。

(4)用户个体画像研究

分析个体属性及行为数据,挖掘其隐藏属性,实现自动个体标签标注。

(5)情绪检测分析

可对沟通中的一句或一段话进行话术文本的情感分析,从而更准确地检测话者情绪。

(6)文本新词发现

基于原始数据,对新出词汇进行归纳统计,快速构建领域内专业词汇列表。

(7)文本处理过滤

对大量原始文本语料进行词语切分,并对与文本核心内容关系较弱的词语进行过滤。

5、语音合成TTS

在我们的应用场景中,经常会出现要报出人名,要报出地名,要报出一些费用,要报出日期等,但TTS真的不好用,合成的语音假得厉害,所以由壹鸽科技实力研发,在导号码时导入我们必须的一些数据,由壹鸽智能语音平台,按真人发音,实时处理和响应以上所面临的难题。

在数据的积累与运用方面,壹鸽科技从数据的半监督学习入手。

壹鸽科技智能语音平台目前日呼叫量百万级别,需实现对平台获取的数据进行存储管理,便于后续针对不同的功能应用开发实现不同算法应用于平台落地于应用场景,如ASR识别文本置信度估计、性别、年龄以及情感状态等。

同时,希望构建一种语音大数据信息处理平台,实现数据(离线)到业务(在线)再反馈回来到数据(离线)这样一个全流程闭环,让平台具备自学习、主动更新的能力,如下图所示。

采用了基于池采样的主动学习技术来辅助人工标注。主动学习系统主要包括(C,Q,E,L,U)几部分:C是分类器,是由已标注训练集L训练得到的;Q是查询函数,用来从未标注样本集U中选择信息含量最大的样本;E是专家,可对Q选择的信息含量大的样本赋予正确的标签。

基于池采样的主动学习过程为:初始的L中会有少量的已标注样本,用L训练一个初始的粗糙分类器,然后用Q从未标注样本集U中挖掘信息量大的未标注样本,由E标注后放入训练集L,再用更新的L重新训练C,以上过程重复迭代,直到满足停止准则。基于池采样的主动学习框图详见下图。

通过构建语音大数据信息处理平台打造壹鸽大脑,实现对语音大数据集进行面向业务应用的底层数据操作、存储、归并、清洗、转化。基于第一步形成的数据集进行处理,一可方便业务系统进行调用、查询、展现,二可利于分析系统更有效的提取数据特征,进行相应的分析。为企业的持续发展提供有力支撑,如下图所示。