语音识别领域的“潜行者”

--专访普强信息CEO何国涛、CTO李全忠

2014-06-30 16:37:29 作者：来源：21CN股票评论：0 　点击：

　　随着苹果Siri的出现，语音识别技术开始逐步走进我们的视野。最直观的感受，就是现在移动互联网的应用中越来越多地以语音识别作为新的人机交互手段。

　　那么语音识别究竟是怎么一回事，它又是怎样被应用并实现其价值的，通过它企业又能获取怎样的增值服务？带着这些疑问，我们走进普强信息技术（北京）有限公司，请被誉为语音识别领域舵手的普强CEO何国涛，和CTO李全忠先生来一一解说。

　　何国涛：普强CEO，北京大学及美国雪城大学计算机硕士，曾就职于硅谷惠普实验室及多家高科技创业企业，成功管理多个跨国项目。拥有管理上亿元营收的公司经验。专长：大规模企业级服务器， Voice XML, IVR System.现主管公司运营。

　　李全忠：普强联合创始人和CTO，负责公司语音识别及语音分析技术。曾在IBM Almaden研究中心任研究员，在数据库、数据分析、大数据处理及云计算等信息科技领域领导了多项研究项目。李全忠于1995年和1998年分别获得北京大学计算机学士和硕士学位，随后留学美国，在亚利桑那大学获得计算机博士学位。

　　问：现在语音识别技术已经成为目前快速推广、作用显着的一种技术，但是对于普通用户来说，这个概念可能更局限于诸如微信的语音输入，请问这二者有什么异同点，语音识别技术究竟是怎样的一门技术呢？

　　何国涛：语音识别技术，简单地说就是把用户语音转换成文本。它可以适用于不同的领域，例如移动互联网，可以让很多人工密集的呼叫中心实现自动化和智能化，保障信息安全的如声纹识别类，作为大数据挖掘的语音分析系统，以及车联网和教育产品等等。

　　李全忠：微信的语音输入只是一个应用例子。未来在我们的日常生活中会越来越多的情况下使用语音识别技术，能够给我们的生活工作带来很多便捷。

　　问：嗯，语音识别技术就是把语音转换成文本的技术，那语音识别在哪些领域使用的比较多，能够为这些企业带来哪些效益？

　　何国涛：语音识别技术可以应用于许多不同的领域。现在使用最多的是移动互联网领域，可以直接把语音转换成文字，为用户解决了在小屏幕键盘输入的困难；呼叫中心领域，通过采用语音识别技术，自动化处理大量的重复性工作，例如语音分析、语音IVR导航；导航及车联网，通过智能语音输入，使驾驶人员能够通过语音控制相应的非驾驶操作，让驾驶人员专注驾驶操作，增加驾驶的安全性；教育领域：口语评测；玩具领域：语音控制；声纹识别领域：增强系统安全性能，这是今年语音识别的主要收入增长点；医疗保健领域：应用到电子病历中，可自动实现医生口述病历及医嘱等等。

　　问：确实是给我们日常生活带来了很大的便捷，也为企业提供了有效的解决方案。作为语音识别领域的重要研发企业，普强在语音识别领域有着怎样的技术优势？

　　李全忠：普强目前已经为金融、电信、保险等行业提供高准确度和高性能的电话线信道的 ASR（语音识别）引擎。

　　移动互联网方面，普强早在2010年7月便与爱帮网推出了语音版的LBS手机应用，这是国内首个基于开放语音云平台下支持多操作系统的手机应用。近年来，随着公司不断的积累，语音识别的技术和产品都相应获得了全方面领先优势的发展。在产品的声学建模上，开发使用了深度神经网络技术；公司研发的语音切分技术及识别结果的置信度算法，不但为企业级应用提供准确的识别结果，同时也提供了精确的说话人分割、时间边界以及识别结果的置信度等信息，这些信息使企业在应用中（例如呼叫中心），更加便捷和准确地利用语音作为主要的交互方式，并且可以进一步挖掘、分析和利用海量语音数据的内容。

　　何国涛：普强智能语音分析系统可以广泛应用于客服中心的质检和企业的精准营销中。该产品提供例如热点发现，趋势分析，自动建模等领先的功能。

　　普强在不断开发新技术的同时，也在企业语音应用的多个领域，（例如保险、银行、证券及电信等的客服中心、增值服务等）积累了海量的数据、模型信息和项目的经验。

　　问：由此可以看出普强信息的技术实力和优势。目前依托语音识别技术，普强有哪些成熟的产品？

　　何国涛：成熟的产品主要有，千语语音平台，向企业提供语音识别产品和服务；千语语音云平台，为手机互联网应用提供的语音识别云服务；普强智能语音分析系统，为企业提供全方位、多维度的大数据分析（语音，视频，文本数据等）。

　　问：您所提到的语音分析系统与传统的人工分析相比，有哪些优势？

　　何国涛：语音分析系统的优势主要有以下几个方面。

　　1. 数据覆盖更全：很显然，智能语音分析人工分析工具所难以比拟的数据覆盖性，语音分析可以做到100%覆盖，但人工分析一般抽样比例低于5%.

　　2. 数据处理能力更强：相比于人工分析，智能语音分析数据处理能力更高，每一个CPU线程每一小时可以处理分析2.6小时的录音，而人工分析每人每一小时只能处理分析0.4小时的录音。一般标配服务器为16核CPU，一般等同于104人。（Elwin，这里需要说得更简单直白一些，“一般标配服务器16和CPU，一般等同于104人”，具体是什么意思？）

　　3. 具有精确的分析功能：语音分析可以通过聚类算法知道热点业务、高频词汇；同时也可以通过筛选算法，在几秒钟内就可找到目标数据，而人工分析无法处理大数据量计算统计工作。

　　4. 更具智能性：语音分析可以进行大数据量的统计计算，从而找出中间的具有某个特定特性的集合，并且分析集合间的相关性，而人工分析无法进行大数量的计算。

　　5.自动性：语音分析可以事先预设统计规则，并设置回溯期的数据重新统计计算，人工无法将历史数据采用新算法计算。

　　6.统计计算工具：语音分析具备大量的数据挖掘和分析工具，人工分析只能做简单的计算统计。

　　问：与国际水平相比，国内的语音识别技术整体上处在一个怎样的层次？

　　何国涛：在中文语音识别领域，国内的科研院所及公司的数据积累要远远多于国外的同行，因此在中文的识别准确度上要好于国外。国内技术型创业公司（包括普强）在研发和利用新技术方面有很大的灵活性，站在技术的前沿，这同时也提高了国内语音技术在国内的产业化水平。在企业应用市场方面仍然落后于欧美的发达国家，但是目前处于迅速跟进和快速发展的阶段，这给语音产业的创业公司尤其是面向企业市场的公司提供了广阔的市场空间。

　　问：作为国内语音识别技术的优秀创业企业之一，普强预计语音识别的未来发展会是怎样的？

　　李全忠：在技术方面，从简单的声音模板匹配，到GMM/HMM，再到DNN/HMM每个新技术的发展都能给ASR的准确率带来一个飞跃，但仍然有很多问题需要解决，比如适应各种环境的噪音，尤其是含有人声的背景噪声、口音及方言的识别、以及在嵌入式设备中降低功耗等。

　　普强会继续投入大量的资源去解决这些问题。以保证普强在技术上的领先地位。

　　问：您认为普强未来的发展方向是怎样的？

　　何国涛：正如我之前提到的，ASR可应用在很多不同领域。包括：企业呼叫中心，车载导航领域、教育领域、玩具领域、声纹识别领域和医疗保健领域等。普强的自主专利核心技术都可以支持这些领域。目前，我们集中资源在企业呼叫中心和移动互联网领域。我们的产品在这一领域有明显的优势，会继续投资现有的领域，同时也会在此领域继续加大投入以保持我们的优势，当然，也会投入在车载、教育等领域来建立技术屏障。

相关热词搜索：普强信息语音识别呼叫中心

上一篇:从营销QQ增强版看SCRM强关系营销

下一篇:呼叫中心如何进行有价值的岗位培训