随着算法、数据、引擎等技术方面的突发猛进,智能语音机器人的应用日益普及。但是在日常交互沟通上,智能语音机器人却显得不足够“智能”,尤其是不能很好地支持打断、插话,反应慢或者自顾自话的问题一直饱受诟病。
大多数语音机器人采用一问一答方式:照本宣科 TTS 播报内容,播报完成后,再去询问和倾听客户的意见,语音识别转译后再跳转对应的对话场景流程。如果是一位有耐心的客户,由机器人主导对话节奏和流程,这样是没问题的。但在实际沟通中,当客户往往喜欢根据自己的想法和判断,对沟通进行各种插话打断,比如:
- “等一下”,客户意图是不需要机器人继续说下去,暂停思考一下,准备切换话题;
- “那 XXXX 问题呢”,客户意图是直接从当前话题切换到下一个话题;
- “好,我知道了”,客户对机器人的回答表示已经足够了解,希望终止当前对话。
一旦出现打断的情况,机器人如果不能及时响应客户的最新想法和指令意图,仍然还在上一个频道“自说自话”,客户体验就非常糟糕……
但是一听到声音就打断机器人讲话,也会有各种各样的问题。各种意外的噪声,比如关门声、装修、汽车、音乐等,这些并非客户真实意图,一旦打断,就会造成错误打断;而混杂在环境噪声中的真人说话声,识别不到的话,就会造成漏打断。
综上,在智能语音机器人应用中,如何合理、准确的判定客户是否有效打断,保证客户智能交互体验,一直是长期存在的问题。
解决:U-IPCC VAD 人声检测技术轻松应对,打造最佳智能服务体验
近日,在某智能客服项目中就遇到这个问题,项目全局使用智能语音机器人接待与交互,需要语音机器人要足够“智能”,打造极致客户体验,怎么办呢?
远传 U-IPCC7.0 开发团队经过科学研究、大胆尝试,打造独特的 U-IPCC VAD 人声识别算法模型,并经过大量测试优化,成功为智能语音机器人赋能智能打断能力:
U-IPCC7.0 在通话建立时主动开启检测外线客户的语音流,当检测到语音被打断时,快速通过人声识别算法模型识别出是人声还是环境噪音。若判断为人声,U-IPCC7.0 立即停止当前 TTS 播报,将人声语音报送 ASR 引擎识别及 NLP 协同,根据分析结果进入下一轮人机交互场景:暂停、调整、停止——第一时间响应客户诉求,直接进入新的对话场景,跟上客户的最新节奏。
作为 U-IPCC7.0 智能打断的核心——人声识别算法模型,通过分析人声语音与其他声音数据(语气词、环境噪声)的波形、能量等特征,提炼声音特征规律形成上百种人声及各种声音模型,可有效屏蔽关门、装修、汽车喇叭、音乐等各种环境噪声,并可精准识别混杂在噪声中的人声,避免错误打断及漏打断。
经过上千次的测试和优化,U-IPCC7.0 人声识别算法模型的应用效果非常理想,基本上可达到人一说话就可以立即停止播放,自动进入新的对话场景,而各种语气词及环境噪音则毫无影响。实测中,机器人的表现非常自然顺畅,智能打断成功率在 95% 以上。