捷通华声灵云——全方位的智能人机交互开放平台

2013-08-12 14:19:37 作者：来源：通信世界网评论：0 　点击：

　　2013第二届运商终端与应用创新合作大会于8月7-8日在国宾酒店召开，来自产业各界近500位嘉宾出席，针对运营商终端定制、产业合作、流量经营等焦点话题展开深入交流。通信世界网作为直播媒体将对本次大会进行直播。

捷通华声灵云——全方位的智能人机交互开放平台
捷通华声首席架构师陈明

　　陈明：大家下午好！我是北京捷通华声首席架构师陈明，给大家介绍一下灵云平台人机交互的平台，捷通华声品牌不是很强，简单介绍一下捷通华声，另外讲一下灵云平台介绍、应用和解决方案。

　　捷通华声成立于2000年10月，一直致力于云的交互、手写识别智能交互系统的研究应用开发，公司的主要愿景和理想，让人机交互变成人与人沟通简单自然，包括我本人和公司创始人，以及聘请两位老科学家，指导我们做语音合成和手写识别教授，我们都是在这个领域多年经验，一直成为让人机交互越来越自然，成为我们很大的梦想。超前追溯一下可以追到1998年，成立捷通软件公司，推出汉字输入系统，当时集成OCR手写识别、语音识别、TDS协同，现在有一些输入法集成进来，我们15年前做了这个事情，只不过在PC上边，当时技术或多或少有不成熟地方，这个参加推出来以后，我们公司下决心一个技术方面要有掌握核心技术，因为当时技术都是集成第三方的技术，包括当时用的云识别是IBM的VRS，想有自己的产品技术，2000年成立捷通华声，相继一年以后推出TTS技术和手写识别技术，TTS技术是国内实用化技术，02年的时候因为一个机遇，假如联通和高通合作的业务开发里边，因此进入移动互联网行业，03年中标北京重大科技奥运项目，开发多语种智能平台，奠定公司在语音行业的地位，06年参与移动百宝箱业务08年我们业务接入电信天翼。09年中标中国高铁项目，站台播报技术都是我们提供，2010年公司看到云技术、大数据技术发展，也想转化商业模式，希望我们提供人机交互模式，提供开发商，希望把技术放在云端，让用户使用，促成灵云的诞生，2011年底推出灵云平台，经过一年半发展，现在也是灵云平台比较成熟。

　　经过十几年发展，公司在各个领域、各个行业紧密合作伙伴，包括运营商、手机厂商等合作伙伴。

　　二、灵云平台介绍

　　希望把手写识别、语音识别、语音合成等等人机交互系统放在云端，让用户在使用各种设备，在任何时间点都可以像用水、用电一样使用智能人机交互技术，实现人机交互人与人沟通简单自然的目标。这是我们平台架构，主要有多个服务结点，都包含任务的分配，转化具体服务器进行处理，不同的语音识别组成服务器的池，我们有一个中央统一运维管理系统，云平台很大的优点，我们能够收集大量用户上传的视听资料，对于我们做手写识别的技术，不断提升我们识别率，开发者可以通过我们登陆社区平台申请应用，下载SDK进行相关的开发。

　　灵云平台第一个特点高度融合的平台，这个平台融合很多人机交互能力，我们接口是比较统一的接口，保持比较大的一致性，然后用户可以很容易访问其他能力，另外底层能力接口定义规范，新的能力可以很融入加入里边，现在跟人脸厂商讨论，希望把他们技术引入我们平台上边去。单一能力可能自己做自学、不断优化的工作，在统一平台做一些工作，试图多个出入模块里边，把用户数据进行统一的学习、数据挖掘，提高我们质量。

　　灵云平台第二个特点是云加端方式，本地处理各自有各自的优点，中国环境不是很好，互联互通问题情况下，除了提供云的能力以外，其实我们也提供本地端的处理方式，可以不依赖于网络，达到更好的可用性和更好响应时间，实际计算处理可以放在本地做，另外一些场景下边云加端识别策略，云识别场景下对于云端，本地端对本地通讯录、本地应用达到更好的识别率，可以进行协同识别策略两边结果进行判断，达到选择更好、更有可能的结果，使用户体验更好。

　　第三个特点可定制，除了提供公有云以外，可以根据客户需求定制云解决方案，前一段时间给百度定制云合成的私有云，根据他们运维和监控需求，把我们部署结构、日志输出都按照他们要求更改，当然针对其他客户也可以做这样的宏观。模型、音库、模板可以根据特殊领域进行定制，大大提高领域的识别率和合成效果，比如音库可以跟企业合作，为他们专门进行录音，制造专门企业自己用的音符，跟其他声音不一样，这是我们一些特点。

　　从核心技术方面，主要集中在云交互和图象识别两个方面，后期也跟一些厂商合作，希望将来能够拓展到生物特征识别、人脸识别方面，也把它加入我们应用平台上边去。

　　语音合成技术是捷通华声做了十多年，现在自然度、流畅度已经很高，我们提供多语种、多音色、多领域的优化，使声音基本上可以很好，这个公司在行业一半的市场份额，大家平时打电话银行、排队叫号好多都是提供服务的。

　　语音识别方面前期主要做嵌入词比较多，目前我们连续识别达到适用的水平，基本达到90%左右，另外采用图像压缩方式，使识别速度比较快，比较大提高识别率，我们测试结果基本能到41%以上。另外针对云服务收集上来的语料，一直进行模型优化训练，使识别率不断提高。

　　手写识别技术，行叠写是我们公司率先提出，极大的优化用户无线体验，另外手写技术支持语种非常广泛，目前支持27种识别。光学字符识别本人以前做这方面，近年来随着终端设备越来越强大，摄象头越来越好，实际拍照出来东西对它进行处理，有一些新的挑战，比如光照的影响或者拍的时候角度，包括复杂景物下文字处理，这是十年间做文档类字符识别不考虑，两年前主要做一些工作，主要集中图象识别上，包括证照、票据识别上。

　　自然语言理解技术，对自然语言进行分析然后进行意图理解，在这个基础上推出像智能客服、手机助手产品，另外也跟车载、智能家电厂商合作，做理解技术包括语音交互的产品。

相关热词搜索：捷通华声灵云智能人机交互

上一篇:华为“数据中心“云时代”容灾备份传送解决方案

下一篇:华为终端营销副总裁：华为——昨天，今天，明天