首页 > 新闻 > 专家观点 >

捷通华声灵云——全方位的智能人机交互开放平台

2013-08-12 14:19:37   作者:   来源:通信世界网   评论:0  点击:


  2013第二届运商终端与应用创新合作大会于8月7-8日在国宾酒店召开,来自产业各界近500位嘉宾出席,针对运营商终端定制、产业合作、流量经营等焦点话题展开深入交流。通信世界网作为直播媒体将对本次大会进行直播。

 捷通华声灵云——全方位的智能人机交互开放平台
捷通华声首席架构师陈明

  陈明:大家下午好!我是北京捷通华声首席架构师陈明,给大家介绍一下灵云平台人机交互的平台,捷通华声品牌不是很强,简单介绍一下捷通华声,另外讲一下灵云平台介绍、应用和解决方案。

  捷通华声成立于2000年10月,一直致力于云的交互、手写识别智能交互系统的研究应用开发,公司的主要愿景和理想,让人机交互变成人与人沟通简单自然,包括我本人和公司创始人,以及聘请两位老科学家,指导我们做语音合成和手写识别教授,我们都是在这个领域多年经验,一直成为让人机交互越来越自然,成为我们很大的梦想。超前追溯一下可以追到1998年,成立捷通软件公司,推出汉字输入系统,当时集成OCR手写识别、语音识别、TDS协同,现在有一些输入法集成进来,我们15年前做了这个事情,只不过在PC上边,当时技术或多或少有不成熟地方,这个参加推出来以后,我们公司下决心一个技术方面要有掌握核心技术,因为当时技术都是集成第三方的技术,包括当时用的云识别是IBM的VRS,想有自己的产品技术,2000年成立捷通华声,相继一年以后推出TTS技术和手写识别技术,TTS技术是国内实用化技术,02年的时候因为一个机遇,假如联通和高通合作的业务开发里边,因此进入移动互联网行业,03年中标北京重大科技奥运项目,开发多语种智能平台,奠定公司在语音行业的地位,06年参与移动百宝箱业务08年我们业务接入电信天翼。09年中标中国高铁项目,站台播报技术都是我们提供,2010年公司看到云技术、大数据技术发展,也想转化商业模式,希望我们提供人机交互模式,提供开发商,希望把技术放在云端,让用户使用,促成灵云的诞生,2011年底推出灵云平台,经过一年半发展,现在也是灵云平台比较成熟。

  经过十几年发展,公司在各个领域、各个行业紧密合作伙伴,包括运营商、手机厂商等合作伙伴。

  二、灵云平台介绍

  希望把手写识别、语音识别、语音合成等等人机交互系统放在云端,让用户在使用各种设备,在任何时间点都可以像用水、用电一样使用智能人机交互技术,实现人机交互人与人沟通简单自然的目标。这是我们平台架构,主要有多个服务结点,都包含任务的分配,转化具体服务器进行处理,不同的语音识别组成服务器的池,我们有一个中央统一运维管理系统,云平台很大的优点,我们能够收集大量用户上传的视听资料,对于我们做手写识别的技术,不断提升我们识别率,开发者可以通过我们登陆社区平台申请应用,下载SDK进行相关的开发。

  灵云平台第一个特点高度融合的平台,这个平台融合很多人机交互能力,我们接口是比较统一的接口,保持比较大的一致性,然后用户可以很容易访问其他能力,另外底层能力接口定义规范,新的能力可以很融入加入里边,现在跟人脸厂商讨论,希望把他们技术引入我们平台上边去。单一能力可能自己做自学、不断优化的工作,在统一平台做一些工作,试图多个出入模块里边,把用户数据进行统一的学习、数据挖掘,提高我们质量。

  灵云平台第二个特点是云加端方式,本地处理各自有各自的优点,中国环境不是很好,互联互通问题情况下,除了提供云的能力以外,其实我们也提供本地端的处理方式,可以不依赖于网络,达到更好的可用性和更好响应时间,实际计算处理可以放在本地做,另外一些场景下边云加端识别策略,云识别场景下对于云端,本地端对本地通讯录、本地应用达到更好的识别率,可以进行协同识别策略两边结果进行判断,达到选择更好、更有可能的结果,使用户体验更好。

  第三个特点可定制,除了提供公有云以外,可以根据客户需求定制云解决方案,前一段时间给百度定制云合成的私有云,根据他们运维和监控需求,把我们部署结构、日志输出都按照他们要求更改,当然针对其他客户也可以做这样的宏观。模型、音库、模板可以根据特殊领域进行定制,大大提高领域的识别率和合成效果,比如音库可以跟企业合作,为他们专门进行录音,制造专门企业自己用的音符,跟其他声音不一样,这是我们一些特点。

  从核心技术方面,主要集中在云交互和图象识别两个方面,后期也跟一些厂商合作,希望将来能够拓展到生物特征识别、人脸识别方面,也把它加入我们应用平台上边去。

  语音合成技术是捷通华声做了十多年,现在自然度、流畅度已经很高,我们提供多语种、多音色、多领域的优化,使声音基本上可以很好,这个公司在行业一半的市场份额,大家平时打电话银行、排队叫号好多都是提供服务的。

  语音识别方面前期主要做嵌入词比较多,目前我们连续识别达到适用的水平,基本达到90%左右,另外采用图像压缩方式,使识别速度比较快,比较大提高识别率,我们测试结果基本能到41%以上。另外针对云服务收集上来的语料,一直进行模型优化训练,使识别率不断提高。

  手写识别技术,行叠写是我们公司率先提出,极大的优化用户无线体验,另外手写技术支持语种非常广泛,目前支持27种识别。光学字符识别本人以前做这方面,近年来随着终端设备越来越强大,摄象头越来越好,实际拍照出来东西对它进行处理,有一些新的挑战,比如光照的影响或者拍的时候角度,包括复杂景物下文字处理,这是十年间做文档类字符识别不考虑,两年前主要做一些工作,主要集中图象识别上,包括证照、票据识别上。

  自然语言理解技术,对自然语言进行分析然后进行意图理解,在这个基础上推出像智能客服、手机助手产品,另外也跟车载、智能家电厂商合作,做理解技术包括语音交互的产品。

分享到: 收藏

专题