科大讯飞吴晓如：语音技术助力更智能更安全的新一代呼叫中心_呼叫中心

科大讯飞吴晓如：语音技术助力更智能更安全的新一代呼叫中心

2009/04/15

　　CTI论坛(ctiforum)04月15日消息: 2009年4月14日至15日，CTI论坛主办2009中国呼叫中心及企业通信大会在北京国际会议中心隆重召开，会议展开三十多场精彩纷呈的演讲，邀请了一批业界知名专家在会上发表演说，以下是主题演讲现场图文报道：

安徽科大讯飞信息科技股份有限公司吴晓如
(介绍语音识别ASR,用于呼叫中心IVR自由说话的导航;声纹识别在金融行业客户风险控制中应用)

　　主持人:下面，有请安徽科大讯飞信息科技股份有限公司吴晓如先生，吴先生给大家演讲的题目是《语音技术助力更智能、更安全的新一代呼叫中心》，有请吴先生进行精彩的演讲！

　　吴晓如：各位嘉宾下午好！

　　实际上在上午各个主题演讲中，大家可以发现，我们最近的通信技术、IT技术的发展，使我们呼叫中心的功能更加强大。下面我演讲的主题是通过智能语音技术，如何使我们的呼叫中心更加智能、更加安全。

　　实际上我也像扬州的领导一样，我提出两个问题。第一个问题是怎么让我们新一代的呼叫中心更加聪明，第二个问题是如何让我们的新一代的呼叫中心在与用户交互的过程中更加安全。

　　我们科大讯飞是以语音交互技术为切入点的厂商，语音技术使信息时代的各种信息通过机器和人进行交互。语音合成相当于给机器装上了人工嘴巴，语音识别是使机器能够听懂人听话，声纹识别是可以辨别说话人的身份。

　　语音产业伴随着社会信息化、网络化、智能化的发展趋势，语音技术的应用已经进入到社会各行业，且不断深化。语音技术的不断进步及当前产业特点，以及我们经济的特点，下一步的呼叫中心的服务将助力我们的呼叫中心建设。

　　目前语音合成技术在我们呼叫中心中得到了广泛的应用，大幅提升了呼叫中心动态、海量信息的发布。

　　大家可以看到，虽然听到了只是一句简单的提示音，但是这个提示音背后所蕴含的各个行业大量的动态海量的信息，可以通过我们的语音合成播报给用户。

　　这几年的语音识别已经在我们的电信运营过程中得到了大规模的应用，这在提升我们的服务水平上，起到了什么样的支持呢？首先，我们对于呼叫中心目前面临的一些挑战，我们在这里提出，第一个是呼叫中心的规模不断地扩张，呼叫中心的人均成本也是不断地提升。

　　刚才我们前面一些演讲人说过，呼叫中心不但规模大，而且成本也很大，人员流动管理困难。

　　第二个挑战是呼叫中心提供给用户的信息越来越多，随着3G我们的统一通信，实际上我们的通信技术、IT技术越发达，呼叫中心推送给用户的信息越多。推送这么多的信息，如何使我们能够更好地设计人和呼叫中心之间交互的界面呢？

　　这个地方是一个简单的菜单，比如说一个用户需要查询卡里面的余额，他需要首先按键1得到个人的业务，按键3得到基金、期货等等的业务，再按键3得到期货和银证的业务才可以查询卡里面的余额。

　　目前的IVR用户只能通过9个键，才可以告诉IVR他有什么样的需求。随着我们的服务越来越多，设计菜单的合理结构越来越困难。即使是我们精心设计的菜单，这种多级式的按键菜单也经常使用户不知所措。同时，也是对我们用户耐心极大地考验。为什么很多的用户一进呼叫中心就直接按0进入人工服务呢？就是他不能忍受当前的IVR。

　　我们提出一个问题，如果用户对于IVR服务不满意的话，我们需要所有不满意的用户都转向人工服务吗？那么我们企业这么大规模的座席资源，是不是要消耗在一些很普通的查询业务上呢？

　　回到上层的菜单，我们首先通过语音识别，用户直接可以查询卡内的余额，即使是这种语音识别，也可以让我们原来的多层次的按键式的菜单，变成扁平式的菜单，可以让用户迅速地通过扁平式的服务得到最后的结果。

　　那么提出了这个问题，我们如何来改进呢？通过我们大量堆积我们的座席数量就需要提升我们的成本，那么通过增加座席质量和提升用户体验，是不是鱼和熊掌不可兼得呢？实际上我们认为，对于人和语音技术在呼叫中心的交互方面，对于IVR来说有一个语音交互系统，通过开放式的语音识别+语义解析+高品质的语音合成，就可以得到高品质的语音服务。

　　在这种服务当中，用户的电话接入之后，我们的语音导航可以把用户带来一般类查询的业务上。这种服务并不是说我们不需要人工的，让我们的人工资源可以满足一些VIP，或者是一些专家型的更重要的业务上。使我们的专家座席具有更高的效率和更高的用户投入产出比。

　　前一段时间我使用过语音识别，但是不方便，我的菜单用户怎么记得住？用户必须准确说出这个菜单的名称，这种情况下，用户必须准确记住菜单的名称，或者是要求用户必须按我们规定的方式说，对于用户来说是很痛苦事情。那么，有没有更好的解决方案呢？能不能用户跟IVR采用语音交互的过程更加愉快呢？这个时候，我们也想请我们各位参会的嘉宾先看一个演示。

(演讲人演示,说:"我家的煤气费没钱了，我想交一点煤气费", 菜单自动跳转到:煤气交费)

　　这个是我们叫做呼叫导航的系统，大家可以看到这个下拉菜单是用户希望得到的服务，但是我们这个服务列得不是很全。如果我们希望得到一项服务，我家的煤气费没钱了，我想交一点煤气费。大家可以看到，我可以以比较自由的方式，告诉IVR一件什么事情呢？就是我家的媒体费没钱了，我要交煤气费。在以前传统的IVR的按键上，你可能需要按3、4次，但是现在用户只需要说他的需求。

　　我们再来看一个。

(演讲人演示,说:"我想把定期的储蓄转成活期的", 菜单自动跳转到:定期转活期)

　　我想把定期的储蓄转成活期的。这个演示实际上是给大家介绍一个什么叫做呼叫导航，与之前的基于命令的识别有什么差别。它可以给我们的呼叫中心起到一个什么帮助。

　　在这种基于自由说话的呼叫导航中，我们的用户不用这么痛苦，必须记住我们的菜单名称。我们在设计我们的菜单的时候，我们整个呼叫中心的管理者，也不需要设计一个非常复杂的菜单。实际说准确的呼叫导航是怎么做到的呢？叫做特定语音的语音识别，如果要语音识别，对于识别每一个字是很困难的，但是对于我们银行的语音菜单是很简单的。即使1、2个字发生的困难，对于我们最后的解析也可以让它理解我们最后用户的需求是什么。所以，语音导航用户只需要做什么事情呢？只需要说说你的需求。

　　我们说的呼叫中心，刚才说怎么让我们的呼叫中心变得更加聪明。第二个问题是呼叫中心还面临一个挑战，当前的呼叫中心转成成本中心，在一些用户转向呼叫中心做一些实际业务的时候，如何让我们的呼叫中心变得更加安全。以我们银行的呼叫中心，电话银行是大家非常信任的业务的手段，但是有很多安全须知，千万不要泄露你的帐号、密码，如果你泄露了你可能会很痛苦，你的财产会受到损失。对于这方面，我们的语音技术能不能做一些工作，使我们的呼叫中心变得更加安全呢？目前的语音识别可以使我们的呼叫中心在风险控制方面得到很大的帮助。

　　如果我们的座席人员了解他家里面每一个家人的声音那么熟悉去了解用户的声音，对于座席人员有点难，几乎不可能完成。但是语音识别可以做到，实际上我们对于我们的用户和座席，在说话的过程当中我们可以实时监控。如果发现当前的通话是一个可疑的对话，可以告知座席，座席可以采取银行要求他采取的步骤，这样可以加强我们的风险控制。

　　对于有一些用户，我们实际上在他做这个业务的过程中，我们可以采用一些，吸入说声纹系统，对于他的声纹进行实时的监控，如果没有声纹识别，我们可以提醒这个用户提高安全级别。

　　声纹识别是辨别说话人身份的一项技术，通话人说的可以是特定的内容，也可以说一些任意无关的内容。

　　其中两个最关键的技术，一个是声纹确认，比如说这个用户是某某帐号的声纹，他说话的时候可以跟语音库里的声音进行对照。开始我不知道你这个用户是谁，你进来之后我看你是不是属于特殊的群体，比如说是我们银行需要关注的黑名单。这样的话，这个人在通话的过程中，我们可以和目标声纹库里的声纹模板进行匹配。如果是可疑分子，我们要通知银行注意这个业务当中有风险。

　　实际上大家对于语音识别前期也在关注，但是我们觉得一个成功的语音识别有很多的核心技术。我们不但针对命令词，而且对于连续的语音也可以识别，而且我们语音识别可以有很好的排除干扰的能力。同时，我们的语音识别应该有语义解析，正确理解一个人说话的目的。

　　语音识别在实际的应用中，它会面临不同的口音、不同的应用环境，需要我们对使用中大规模的语音数据通过语音模型进行训练，使我们可以排除不同的噪音。

　　实际上，所有的语音识别的技术都是基于统计的。如果我们了解过不同的口音、不同的信道地之后就可以很好地处理这些不同的数据，一些不同口音的影响。

　　科大讯飞我们在全国建了4个联合实验室，在中国科技大学、清华大学、社科院语言所、国家普通话测试站中心，最后会整合成我们最后的语音合成、语音识别、声纹识别等等。

　　另外，对于我们相关很重要的处理语音识别所需要的口音、信道，目前我们在全国省级电信运营商部署的音乐搜索等大规模语音识别业务已超过50个，覆盖不同地域等，使我们的语音识别可以应用于不同的环境。

　　自助式的语音服务之前一直是按键加录音，TTS技术的出现，使我们的语音呼叫是按键+TTS。我们语音导航可以进入ASR&TTS，用户的需求不但可以通过3键和9键。

　　我们科大讯飞是语音技术领域唯一的国家863计划产业化基地、国家规划布局内重点软件企业、国家级企业技术中心。中国语音市场占有率最高达到了70%，同时我们代表工信部制定语音技术的国家标准，目前我们有700人左右，设有博士后的工作站在全国有4个联合实验室，公司是在去年的5月份在深交所正式发行上市。

　　科大讯飞的中文语音合成技术，在理历届的国内、国际的评测中都名列第一。2006年和2008年我们参加了全球英文语音技术合成大赛，我们也连续三年蝉联了第一名。在这里，我简单地把我们的语音合成技术，简单地做一个演示。

　　同时，我们的语音合成可以提供不同的音乐和语种。目前，我们的音乐合成技术首先整合了我们06到08年三年比赛的成果，同时我们的产品可以支持各种主流的语种，同时可以支持不同的方言音色，合成系统可以有男女老少各种因素供我们用户选择。

　　为了使我们相关的产品可以在主流行业有更好的效果，我们针对像电信、金融等一些主流的行业进行专门的优化，可以提供专业的优化版本。同时，我们的系统还提供了多种实用的特性，它不仅仅是是文本转语音，还可以进行音频的管理，可以进行日志的管理和动态的重启。

　　比如说你分散式部署IVR的系统，你可以把所有的提示音通过我们TTS的音频管理进行统一的安排，这样各地的IVR的服务器，可以通过FTP、HTTP的格式进行转换。

　　声纹识别目前在国际上最有名的技术评测是美国的国家标准技术研究院，每年会举行一次大规模的声纹识别大赛。科达讯飞在2008年我们参加了这次评测，这次评测包含了国际上像MIT和斯坦福参加的比赛，我们取得了第一名。这有一个识别错误里，如果有100个人想冒充别人，我发生错误的是3个，我可以抓住97个。这次比赛也表明了我们科大讯飞在识别方向上我们是国际领先。

　　目前，我们的语音识别除了目前已经在各地电信广泛音乐搜索中所使用的命令识别，你一说一个歌曲的名称我就可以帮你下载下来，我们目前有成熟的呼叫导航，可以进行语义的解析，同时我们可以提供相关的语音搜索和检索。以后有大量的音视频的呼叫，怎么管理，我们可以制定一些语音的标签，使我们搜索的时候更加方便。

　　实际上我们说了很多不同的语音服务的模块，听上去很多，但是应用起来非常方便。

　　我们有多种的语音合成，多种的语音识别，我们的声纹识别引擎等等。所有这些我们都可以通过统一的网络平台技术封装。这种封装既可以通过之前各个厂商非常熟悉的接口形式进行封装，也可以通过最新的基于SIP的、MRCP的服务进行统一的管理。用户无论使用什么引擎都可以得到我们的语音管理的服务。

　　目前我们这种平台已经可以支持华为、Avaya、思科等众多的平台，可以支持众多主流的操作系统。我们科大讯飞有着非常完备的研发和质量体系，早在2006年的12月份我们就通过了CMMI L4评估认证，目前我们也是首个国家的标准试点基地。

　　目前，我们在全国24个主要的城市设有子公司和办事处，可以为我们所有的合作伙伴和用户提供非常完备的技术支持和服务。

　　科大讯飞在去年5月份上市以后，也是成立了我国第一家以语音技术为主要产业化方向的上市公司。在当前比较恶劣的经济环境下，科大讯飞受到了股市和分析师非常好的评价，去年11月份开始我们中小版上升了60%，我们大概上升了140%。我们现在的股价大概维持在30多元。其中股价只是很表面的表现，最主要的原因是各个行业的分析师，对于语音技术的水平，以及语音技术各个行业的广泛应用，表示高度的认可。我们也希望我们不断提供最优的语音技术，我们期待和我们的产业、呼叫中心相关的产业能够合作共赢、共同发展。我的介绍就到这里，谢谢大家！

　　本文根据CTI论坛主办的2009中国呼叫中心及企业通信大会会议记录整理，转载请注明出处！

CTI论坛报道