智能语音应用的场景和关键点

　　最早接触语音相关的产品大约是在10年前，那个时候厂商推荐的两大卖点是销售和质检，“智能”两个字还并不流行。现在，和语音相关的产品、应用几乎都和“智能”两字挂钩，更大的卖点是人机交互，让机器和客户智能地对话。而实际上在呼叫中心语音产品的应用有很多场景并且差异很大。在语音服务仍是呼叫中心主要服务模式的今日，笔者基于个人经验整理一下语音应用场景中的关键点。

　　我们平时接触到的和语音相关的应用，不管展现形式是什么，其核心是自动语音识别（Automatic Speech Recognition，ASR），很多时候再加上和其他技术的整合应用。由于声音文件无法直接处理，所以通过ASR将声音转成文字之后再处理，比如语音输入法、自动语音应答、语音搜索。通俗地说，就是将语音转化成文字（STT），过程正好和语音合成（TTS）相反。接下来要讨论的是呼叫中心在哪些场景中可以使用ASR？如何使用才能让语音应用更加实际可用。

　　一、语音识别技术的发展

　　百度百科是这样介绍的：“自动语音识别技术（Automatic Speech Recognition）是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。”对于这样一个非常专业的技术领域，要了解里面到底是什么技术、有哪些理论，对于普通人来说是非常困难的。我只能尝试另辟蹊径，从另外一个角度——应用发展的角度，帮助大家来理解自动语音识别技术。

　　语音识别技术的应用由来已久，但一直没有出现很成熟的应用。准确地识别一通语音，是件非常困难的事。除了不同语种的差别，即使是汉语，在加入方言、口音、同音字词这些因素后也会产生海量的语音要识别。这也是为什么我在很久以前就有机会接触到相关的产品，却没有产生实际的应用成果的原因。

　　直到最近几年，自动语音识别又开始成为热门的讨论内容，一个又一个呼叫中心开始立项，撸起袖子大干起来。推动自动语音识别应用发展的力量主要来自两个方面，一方面是技术的进步，另一方面是持久的训练。

　　在更快的计算能力和更高级的算法出现以前，自动语音识别技术的应用必然被限制在实验室中或者某一狭窄的领域。幸运的是计算能力一直在提升，上世纪80年代又出现了人工神经网络算法，所以应对千变万化的语音才变得越来越容易，也因此而诞生了今天众多的智能语音应用。

　　技术进步是持久训练得以产生效果的基础，因为当计算机没有能力处理海量数据的时候，再多的训练产生再多的数据也是没有用的。自动语音识别技术应用发生质的变化依赖于计算能力和算法这些基础软硬件的升级换代，这取决于基础科学技术领域的进步。你是不是联想到《三体》小说中关于基础物理的观点？基础物理学的发展才能推动科技发生质的飞跃，基础物理学没有新的发现和理论，科学技术就会被限制在某个层次上。

　　当年在英语环境下应用不错的产品，到了中文环境就水土不服，那就是因为训练太少。相信很多人在了解某个语音产品时，问得最多的一个热点问题就是“方言识别效果怎么样？”，以前得到的答案是“只支持普通话”，后来得到的答案是“可以支持带口音的普通话”。其中的差别在哪？不是技术发生什么变化了，只是训练的多了，见识的语音足够多了。经过训练的自动语音识别应用和10年前确实不可同日而语了，如果再抛开那些表示语气的字词，对句子核心意思的翻译准确率应该已经很不错了。

　　现在，自动语音识别的相关应用要有好的表现，还得像过去的几年一样，要不断去训练训练再训练，不同地域口音方言的训练、不同行业专业词汇的训练、不同声音采样率精度的训练。自动语音识别哪家投入的针对性训练多、优化多，哪家的应用表现就好。一句话，听多识广，总能优化，也总要优化。这就是我从应用发展的角度理解自动语音识别技术应用。

　　与对待智能机器人的态度相类似，更经济的做法是把自动语音识别应用在有限的业务范围内，焦点放在“要识别什么”，而不是“还有什么不能识别”。比如，手机上的用于识别操作指令，效果就不错，因为要识别的内容被限定在某个特定的范围内。分析一下你的业务，其实要识别的有价值的内容应该也不会很多很多吧。而且，大多数的业务，识别语音并不需要很高很高的准确率。这就为今天自动语音识别技术实际应用到业务中创造了机会。字符识别（OCR）是一个很好的可以类比的例子，从普遍性来说OCR还是不成熟的，在中文领域甚至难于ASR，但最近停车场应用在车牌识别方面却非常普遍。

　　下面就具体说说呼叫中心一些和自动语音识别相关的应用场景。

　　二、第一类应用，简单指令或有限字词的识别

　　IVR导航是一个最普遍的应用。第一次听到呼叫中心应用语音识别是在2005年去香港的一次交流活动中，该应用可以根据客户所说的地址自动播报电话号码。当时没有深入去了解，细节知之甚少。现在想来，香港是个不大的地方，地址非常有限，人家用的还是英语，能收到不错的效果也是情理之中。如今我们用语音查询保费、导航IVR菜单、语音查询账单，在内容上的难度要低于地址查询，因为地址涉及到的字词更多。这类应用还有一个特征，是单次互动，没有复杂的交流过程，所以使用语音识别产品把语音转成文字，再加一些简单的关键词理解，可能就上线应用了，本身技术难度不大。

　　如果和其他系统融合再深入些，我觉得有两个场景是可以考虑的。

　　其一，关键词辅助指引。在人工和客户通话过程中，系统自动根据预设的关键字词调取相关的知识库内容展示在页面上，大大提高了座席获取知识库知识的效率，尤其是在知识被碎片化成FAQ的情况下。如果有比较好的智能机器人支持，效果当然更加不凡。这类应用逐渐开展的做法，可以是设置需要识别的字词过滤，这样可以把少量已知或准确率高的知识和对话联动起来，避免大量低准确率或无效的知识联动干扰。目前还鲜有看到这方面的应用，不过我个人很期待这样的应用产生，因为实际上没有什么技术难题了。

　　这种场景其实和早期语音识别厂商大力推荐的应用相同，只不过前面提到过那时的卖点是促进销售。那时的基本逻辑是，系统根据客户所说的内容自动提示座席该客户存在什么样的销售机会，而不依赖于“座席要足够敏感”“座席不要忘了说”。随之带来的是销售业绩上升，给企业带来更好的收益。

　　也许是“画”出来的收益太大了，所以厂商一般都狮子大开口，把产品卖得很贵。也有可能是因为产品进入市场急于收回研发成本而很贵，才“画”了这样的收益卖点。现在看起依然还是贵的，特别是那些按License卖产品，有些产品还有录音系统问题，也许要改造甚至更换录音系统，投入不小。不过，已经有厂商愿意用利益分成的方法进行合作，多少可以说明厂商对这一应用还是有信心。其二，辅助录入。客户说的话，直接转化成文字变成需要录入的内容，节省一些录入时间，或者避免座席录入的随意性和不可控性。这其实和语音输入法是一样的应用，只不过语音换成了对方客户的声音，或者客户和座席两个人的声音对于这样的扩展应用，个人认为没有什么技术障碍，只要评估投入是否能接受，投入产出比是否达到了预期。应用实施刚开始，效果一般不会好的，因为语音输入法的应用对象和场景具有普遍性和广泛性，在某一专业领域会水土不服，接下来要做的就是“专业训练”。

　　三、第二类应用，智能语音问答

　　智能语音问答是自动语音识别最普遍的期望。注意，是期望，而不是应用，因为要实现机器与人交流，关键既有语音识别，也有智能问答，是两者的组合。智能问答现在面临的理解难题和题库难题，决定了智能问答的还不够成熟，所以组合起来的应用更是困难重重。个人关于智能问答更多的观点，可以参见笔者发一于《客户世界》杂志的另一篇文章《如何使用智能机器人》。

　　智能语音问答通常让人联想到呼入业务，这确实很难。如果从“有限内容”去匹配业务，就会发现在回访（呼出）业务上应用智能语音问答，也许是个不错的选择。由于回访业务中内容是预先设定的，整个沟通过程中涉及的内容大多数情况下是有限的，相当于是限定了自动语音识别的字词范围和智能机器人的问答范围，所以智能语音问答应付这种场景会容易很多。更简单一些的回访，即使不用任何智能问答的成分，仅去识别客户回答中的某些关键词，通常就能满足业务需要了，这就变成了实质上的“有限字词的识别”。所以回访是自动语音识别在智能语音问答类应用中比较普遍的场景回访是自动语音识别在智能语音问答类应用中比较普遍的场景，已经有不少公司实际开展了这样项目，比如我曾经的东家平安保险、太平保险。

　　最近在很多公司力推的APP上，也开始使用自动语音识别，帮助客户跳转到相关的页面，回答客户的一些问题。如何理解、回答，和电话渠道面临的困难是一样的，优势在于16K的采样率有助于提高音转字准确率。

　　四、第三类应用，智能语音分析

　　对呼叫中心来说，除了大量的结构化数据之外，还有大量的录音，大家都认为这既是一个需要监控的高风险地带，也是一个值得挖掘的宝藏。可是传统的技术，无法对录音进行分析，只能靠人工去听，费时费力，分析的样本不够典型，质检覆盖率非常低。自动语音识别可以很好地解决这个问题，当应用语音识别将语音转成文字之后，就存在了全量检查、分析的可能。

　　最常见的应用场景是语音质检，具体做法是使用语音识别产品，将录音转化为文字，再从这些文字中寻找需要检查的内容。这是一种事后的应用，细化一下有三种用途：

　　第一种，提高问题检出率。通常用于合规检查，该说的话是不是说了，不该说的话是不是真的没说。最先应用的是在电话销售、电话回访业务中，这类业务往往有很多监管的要求，以避免各种误导，撇清各种责任。还有用于日常质检中检查有没有出现服务禁语惹了客户。语音质检理论上可以做到检查所有录音，达到100%的覆盖，这样就不用担心传统方法未抽检到的录音中是否有座席心存侥幸。

　　第二种，辅助提升技能。质检的定位越来越被认可是帮助座席提升技能而不是扣分的，所以语音质检也要去找出录音中座席不熟练、生疏的内容，帮助其提升技能。比如重复多次的话、停顿、不能适当主导通话内容，等等。

　　第三种，分析来电原因。对客户关注热点的变化，一般通过来电原因来分析。记录每一通电话的来电原因，传统的做法是话后小结，缺点是增加处理时间，而且不纳入质检差错的话后小结，通常不准。先进一点的做法，根据操作页面自动记录，只是有时候遇到同页面不同原因时，不容易细分，同时也受座席操作影响。这些做法还有一个共同缺点是，不管是服务小结还是页面点击，来电原因都是预设的，对历史数据不能按新的来电原因统计。而通过语音来分析，准确性会提升，而且对历史录音也可以按照新的维度去统计分析。

　　上述三种用途，总的来说个人觉得现在应用效果一般，原因在于音转字之后的非结构化文本分析，并不是现在这些语音识别厂商的强项。所以，如果要把语音质检用好，出路可能是和大数据分析产品或专业的非结构化数据分析产品整合。在此之前，靠着一些“包含/不包含”“且/或”表达式建立起来的模型，终究应用范围和效果有限。

　　至于厂商在自动语音识别产品推荐时提到的“情绪”“语音语调”，我觉得还是抱着试试看的心态去对待吧。

　　五、第四类应用，实时语音监控分析

　　因为实时语音监控分析和事后的质检分析是不一样的，同时也是实时关键词识别的升级版，所以单独说说这个应用。这通常是国外供应商经常描绘、却很少见的应用场景，这是一种事中的应用。双十一各大电商都有大大的电子显示屏实时展现各种交易数据，看的一清二楚，人家那是结构化数据，好办。想象一下，如果呼叫中心的监控大屏，也有一个大大的电子显示屏，实时展现现在来电客户所关注的问题，能够马上发现一些热点的异常变化，是不是很酷？这样就不用在来电量发生突然变化的时候，去问座席“有什么异常吗/有什么来电特别多吗”了（能问出个结果来的几率太低了）；也不用等不怎么准不怎么细化的来电语音分析了；也不用等事后的语音分析了。反应，自然变快了。只是，这样的应用所带来的好处和所投入的成本相比，似乎还很不般配。反过来因为没有太多的应用，没经过大量的实战，投入使用的效果也不见得好。声明一下，这里不是在黑厂商，而是描绘美好的未来，只不过这样的应用可能要再等一等。

　　六、对于自动语音识别技术应用的一些建议

　　除了“有限范围”这一原则外，以往的经验告诉我，在现有条件下有些办法可以有助于提高自动语音识别应用的效果。

　　其一，专业产品整合。除了自动语音识别本身不断训练、优化，提高音转字准确率之外，还要和其他关键关联方整合应用。智能语音对话的关键关联方是智能机器人，那要么智能语音产品中包含了这样的功能，要么和智能机器人组合起来使用。智能语音分析的关键关联方是大数据分析产品，各种分析模型。很多时候，这些整合使用的关联方好坏，甚至更为重要。

　　其二，搭建自有系统。有些厂商是提供云服务的方式进行语音识别的，优点是便宜，缺点是云端的模型优化不能完全按照自有的业务特点进行（私有云除外）。而自有系统，就可以按照一些专业、特有词汇进行语料库的训练优化，现在识别准确率方面的利器就是训练。如果有厂商驻场优化，那是更好。

　　其三，预先筛选录音。一套语音识别系统还是很贵的，尤其是一套自有的系统，越多的转译录音时长，越多的服务器资源。而如果能通过结构化的数据筛选条件，先找出符合条件的录音，再去转译的话，录音时长就少多了，也不用担心随机采集到的样本量太少。比如电销只取销售成功的录音，因为销售失败的不是监管重点；比如只取某某产品的客户录音转译，因为这个产品的咨询、投诉是当前监控的重点，举个例子，因韩国部署萨德而使乐天玛特超市受影响，那么这几天乐天玛特卡客户的所有来电，就是监控重点。

　　其四，在压缩前转译。通常为节省存储，电话录音会被压缩得很厉害。由于电话本身8K采样率已经先天不足，再被压缩的话语音识别效果就更差了。所以可以采取先高品质暂存，转译后再压缩。

　　其五，双声道录音。这个大家都明白的，把客户录音和座席录音分开来，就可以做更多、更精准的分析。

评论排行

推荐阅读

专题

大家都在看