您当前的位置是:  首页 > 新闻 > 文章精选 >
 首页 > 新闻 > 文章精选 >

让声音成为有意义的数据

2018-03-29 10:16:58   作者:德鸿科技 研发部 Pei   来源:CTI论坛   评论:0  点击:


让声音成为有意义的数据
  数据分析的风潮在几年间席卷了全球。一方面是因为手持设备数量不断增长,机器产生的数据越来越多,另一方面,因为监测变得容易,人与人之间互动产生的数据也持续暴增。
  大量的数据滋养了过去停滞不前的人工智能,使其达到了新的里程碑。而在商业应用上,企业主特别关心的是那些「跟人有关的数据」,也就是顾客的数据。
  录音是一个历史悠久的技术。贴近顾客的客户服务产业,基于法规和商业理由,存放了大量的录音档。这些录音档,有时能用来证明或是确认服务人员与顾客的对话。但长期以来都像是个黑盒子,看不清里面有什么。直到这几年,这个黑盒子才开始与数据分析的趋势接轨。
  第一个原因,是人们渐渐无法忍受不透明的数据。许多新兴企业透过网络营销,并贩卖商品,绝大部分都是原生于网络的文字数据。这些文字数据都非常容易被集中管理,检索,与分析。但过传统方式留下的声音与影像,并不是那么容易用机器分析,需要真人慢慢判读。这种落差,让企业想找出新的方法重新检视旧数据。
  另一个契机,就是近年影像和声音辨识技术的重大进展。影像识别已经带来像是自动驾驶等等创新应用。语音识别也到了可商用的准确度。事实上,每个人口袋里的智能型手机都有简短互动的语音识别能力。但说到真正能发挥语音识别技术的,还是莫过于日夜都有大量录音涌入的客服中心产业。
  录音透明化
  从一些访谈中我们观察到,现今许多客服主管,仍必须用人工听录音的方式,试图找出服务过程的缺失与细节。
  有个案例是来自知名的商业银行,关于顾客打来抱怨保单的金额和当初销售不符。在这种情况下,客服主管必须逐一听过前面每一通录音,才能确认到底是销售人员的缺失,还是顾客自己搞错了。
  在这个几乎什么都可以搜寻的时代,客服主管却只能一通一通的慢慢听录音,是一件非常耗费心力的事。
  数据的价值,是建立在数据的可搜寻性。没有办法被搜寻的数据,就没有价值,也就没有意义。然而,改变这项限制的时机与工具已经成熟。企业必须思考一个问题:有什么数据是我们还不能搜寻分析的?
  而对客服中心来说,就是如何让录音成为可分析的数据。
  这将带来非常多好处:
  • 看见客诉的前因后果
  • 发现客服人员的互动问题
  • 挖掘潜在的销售机会
  录音数据的透明化,可说是关乎企业的时间成本,以及潜在销售获利的关键。
  关键技术
  要做到录音可分析,现在有三个主要步骤:第一,运用语音转文字(SpeechtoText)的算法把音文件转成文字数据;第二,运用搜索引擎或分析工具过滤并处理;最后,用可视化的方式呈现给使用者。
  要做到这三件事,需要的关键技术如下:
  • 容易扩容的储存系统(Software Defined Storage)
  原始录音档需要非常大量的储存空间,转译成文字后若要做更多应用,也需要与其他数据(例如社群媒体、文字客服等数据)整合,这些都需要能够乘载大量数据的储存系统。另一方面,因应录音量可能暴增,必须具备弹性扩容的能力。这对传统的字料库与服务器都是很大的挑战。许多新兴企业会采用云端服务,例如亚马逊云端服务(Amazon Web Service)提供了在线巨量且方便扩容的储存。但基于客服中心的数据涉及顾客的个人信息,如果不适合直接使用云端服务,企业就必须有能力自建软件定义储存(software defined storage)系统。才能在脱机的状态下,提供大量且弹性的储存。
  • 语音转文字引擎(Speech-to-Text Engine)
  语音转文字引擎,是让录音可以被分析的关键。上述提到,语音识别的成熟度已经相当高,但由于需要大量训练用数据,对一般企业来说仍不是一个能够自建的工具。基于这个理由,许多云端公司都有提供语音转文字的API可以使用。像是IBM的Bluemix,或是MicrosoftAzure。但同样的,客服产业的特殊性可能不适合直接使用云端服务。此时就需要跟专业的语音识别公司合作。建立一个辨识率高的引擎并不容易,有许多环节需要调整。英文辨识良好的引擎未必能对中文运作,就算同一个语言,不同地区的口音也会造成影响。另一个需要花心思的环节,是辨识后文字的处理方式。如何断词,标记等等,都会影响到后续的文字分析是否准确。
  • 搜索引擎与数据处理工具(Search Engine and Data Processing Tool)
  现今做数据分析的技术已经非常普遍,像是热门的Hadoop,Spark等数据处理工具。还有让企业能够自建高效搜索引擎的ApacheLucene,Elasticsearch等等。对客服中心来说,自建搜索引擎是非常适合的选项。录音经过语音识别成为文本文件,然后被搜索引擎索引,进而成为可搜寻的数据。如前文提到,有时客服中心的需求是追踪特定的电话内容,透过搜索引擎,就可以在毫秒间定位到对应的录音。
  • 弹性的模型匹配功能(Pattern Matching Feature)
  为了让使用者能够锁定特定的录音,或是分析录音之间的趋势,必须能够弹性地定义匹配方式,也就是如何设计一个适切的模型匹配(Pattern Matching)功能。技术上可以运用搜索引擎与机器学习,视需求找出精准或模糊的匹配结果。
  • 友善的操作接口(User Interface for Analysts)
  最后一个关键是操作接口。接口的实作方式很多,而要做出跨平台方便使用的接口,较主流的做法是使用Html5网页技术。然而,好的操作性必须倚赖设计,录音分析的独特性,在于必须兼顾量与质两者。一方面要能够看出海量数据间的大趋势,另一方面也要能够锁定个别录音,去挖掘客户对话中的症结点在哪里。这需要独特的接口设计,用视觉画图表的方式呈现大数据,并对个别录音能够做深入纪录。
  企业必须体认到,透过这些技术,客服中心可以拥有前所未有的利器,可以剖开录音的黑盒子,让声音成为有意义的数据。
【免责声明】本文仅代表作者本人观点,与CTI论坛无关。CTI论坛对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

专题