让声音成为有意义的数据

　　数据分析的风潮在几年间席卷了全球。一方面是因为手持设备数量不断增长，机器产生的数据越来越多，另一方面，因为监测变得容易，人与人之间互动产生的数据也持续暴增。

　　大量的数据滋养了过去停滞不前的人工智能，使其达到了新的里程碑。而在商业应用上，企业主特别关心的是那些「跟人有关的数据」，也就是顾客的数据。

　　录音是一个历史悠久的技术。贴近顾客的客户服务产业，基于法规和商业理由，存放了大量的录音档。这些录音档，有时能用来证明或是确认服务人员与顾客的对话。但长期以来都像是个黑盒子，看不清里面有什么。直到这几年，这个黑盒子才开始与数据分析的趋势接轨。

　　第一个原因，是人们渐渐无法忍受不透明的数据。许多新兴企业透过网络营销，并贩卖商品，绝大部分都是原生于网络的文字数据。这些文字数据都非常容易被集中管理，检索，与分析。但过传统方式留下的声音与影像，并不是那么容易用机器分析，需要真人慢慢判读。这种落差，让企业想找出新的方法重新检视旧数据。

　　另一个契机，就是近年影像和声音辨识技术的重大进展。影像识别已经带来像是自动驾驶等等创新应用。语音识别也到了可商用的准确度。事实上，每个人口袋里的智能型手机都有简短互动的语音识别能力。但说到真正能发挥语音识别技术的，还是莫过于日夜都有大量录音涌入的客服中心产业。

　　录音透明化

　　从一些访谈中我们观察到，现今许多客服主管，仍必须用人工听录音的方式，试图找出服务过程的缺失与细节。

　　有个案例是来自知名的商业银行，关于顾客打来抱怨保单的金额和当初销售不符。在这种情况下，客服主管必须逐一听过前面每一通录音，才能确认到底是销售人员的缺失，还是顾客自己搞错了。

　　在这个几乎什么都可以搜寻的时代，客服主管却只能一通一通的慢慢听录音，是一件非常耗费心力的事。

　　数据的价值，是建立在数据的可搜寻性。没有办法被搜寻的数据，就没有价值，也就没有意义。然而，改变这项限制的时机与工具已经成熟。企业必须思考一个问题：有什么数据是我们还不能搜寻分析的？

　　而对客服中心来说，就是如何让录音成为可分析的数据。

　　这将带来非常多好处：

看见客诉的前因后果
发现客服人员的互动问题
挖掘潜在的销售机会

　　录音数据的透明化，可说是关乎企业的时间成本，以及潜在销售获利的关键。

　　关键技术

　　要做到录音可分析，现在有三个主要步骤：第一，运用语音转文字（SpeechtoText）的算法把音文件转成文字数据；第二，运用搜索引擎或分析工具过滤并处理；最后，用可视化的方式呈现给使用者。

　　要做到这三件事，需要的关键技术如下：

容易扩容的储存系统（Software Defined Storage）

　　原始录音档需要非常大量的储存空间，转译成文字后若要做更多应用，也需要与其他数据（例如社群媒体、文字客服等数据）整合，这些都需要能够乘载大量数据的储存系统。另一方面，因应录音量可能暴增，必须具备弹性扩容的能力。这对传统的字料库与服务器都是很大的挑战。许多新兴企业会采用云端服务，例如亚马逊云端服务（Amazon Web Service）提供了在线巨量且方便扩容的储存。但基于客服中心的数据涉及顾客的个人信息，如果不适合直接使用云端服务，企业就必须有能力自建软件定义储存（software defined storage）系统。才能在脱机的状态下，提供大量且弹性的储存。

语音转文字引擎（Speech-to-Text Engine）

　　语音转文字引擎，是让录音可以被分析的关键。上述提到，语音识别的成熟度已经相当高，但由于需要大量训练用数据，对一般企业来说仍不是一个能够自建的工具。基于这个理由，许多云端公司都有提供语音转文字的API可以使用。像是IBM的Bluemix，或是MicrosoftAzure。但同样的，客服产业的特殊性可能不适合直接使用云端服务。此时就需要跟专业的语音识别公司合作。建立一个辨识率高的引擎并不容易，有许多环节需要调整。英文辨识良好的引擎未必能对中文运作，就算同一个语言，不同地区的口音也会造成影响。另一个需要花心思的环节，是辨识后文字的处理方式。如何断词，标记等等，都会影响到后续的文字分析是否准确。

搜索引擎与数据处理工具（Search Engine and Data Processing Tool）

　　现今做数据分析的技术已经非常普遍，像是热门的Hadoop，Spark等数据处理工具。还有让企业能够自建高效搜索引擎的ApacheLucene，Elasticsearch等等。对客服中心来说，自建搜索引擎是非常适合的选项。录音经过语音识别成为文本文件，然后被搜索引擎索引，进而成为可搜寻的数据。如前文提到，有时客服中心的需求是追踪特定的电话内容，透过搜索引擎，就可以在毫秒间定位到对应的录音。

弹性的模型匹配功能（Pattern Matching Feature）

　　为了让使用者能够锁定特定的录音，或是分析录音之间的趋势，必须能够弹性地定义匹配方式，也就是如何设计一个适切的模型匹配（Pattern Matching）功能。技术上可以运用搜索引擎与机器学习，视需求找出精准或模糊的匹配结果。

友善的操作接口（User Interface for Analysts）

　　最后一个关键是操作接口。接口的实作方式很多，而要做出跨平台方便使用的接口，较主流的做法是使用Html5网页技术。然而，好的操作性必须倚赖设计，录音分析的独特性，在于必须兼顾量与质两者。一方面要能够看出海量数据间的大趋势，另一方面也要能够锁定个别录音，去挖掘客户对话中的症结点在哪里。这需要独特的接口设计，用视觉画图表的方式呈现大数据，并对个别录音能够做深入纪录。

　　企业必须体认到，透过这些技术，客服中心可以拥有前所未有的利器，可以剖开录音的黑盒子，让声音成为有意义的数据。

评论排行

推荐阅读

专题

大家都在看