首页 > 新闻 > 专家观点 >

灵云:让电脑与人更好沟通

2013-08-19 14:15:38   作者:   来源:中关村周刊   评论:0  点击:


  随着移动互联网、智能终端、云计算的飞速发展,智能人机交互(英文:Human-Computer Interaction,以下简称“HCI”)技术也迎来了大爆发的时代。HCI技术,是指人与计算机之间使用某种对话语言,以一定的交互方式,为完成确定任务的人与计算机之间的信息交换过程。简单地说就是让机器能听会说,能写会识,甚至可以感知人们的想法并为之服务的过程。

  在中关村有着这样一个人,他用了六年的时间去思索,并与HCI技术结下了不解的情缘;用13年的时间坚持做了一件事,把HCI技术做出“国际水准”;在很多人眼中他已经功成名就,而在他眼中,他的事业才刚刚起步……他就是北京捷通华声语音技术有限公司(以下简称“捷通华声”)董事长张连毅。

捷通华声董事长张连毅

环保需要经济支撑

  当前,语音合成、语音识别和手写识别、OCR已经成为成熟的智能人机交互核心技术,正在悄悄地影响和改变着人们的生活。其中,语音合成技术可以让各种设备“开口讲话”,把各种文本信息以语音的方式播报;语音识别技术可以让各种设备“听懂”我们的话;手写识别、OCR技术可以帮助人们从各种设备繁琐的按键操作中解脱出来,轻松输入文字。

  而在张连毅看来,随着移动互联网、智能终端、云计算、大数据等产业的飞速发展,智能人机交互技术也迎来了大爆发的时代。他认为,“智能人机交互技术是各大技术产业变革的画龙点睛之作,也是我国由‘中国制造’向‘中国创造’转型的巨大机遇,中国在智能人机交互技术领域的发展绝不输于外国企业”。

  回到20多年前,这样的豪言对于一个刚从高中走出来的孩子来说,简直不敢想象。那时,他的梦想只是想让祖国的天更蓝、水更绿。在填报高考志愿的时候,张连毅的专业选择只有一个——环境工程。

  1989年,张连毅在清华大学环境工程系毕业。“我一直都有着一个梦想,走遍祖国,任何一条河流都是清澈的,任何一片天空都是蔚蓝的。”张连毅告诉北京商报记者,“环境问题,不是一个单独的事情,涉及很多的方面,而经济无疑会成为其中重要的基础。”就这样,张连毅毕业后选择了一条不同的道路,进入清华紫光从事经济类的工作。

  1992年,一次偶然的机会,他与清华大学教授吴佑寿、丁晓清合作,推进汉字印刷体识别系统商品化进程,这是他与HCI技术的初识。

 六年HCI技术情缘

  1992年底,张连毅登上了去美国的飞机。“想做更多的事情,但是能力并不足以支撑自己的理想,我需要出去学习、开阔视野。” 张连毅告诉北京商报记者,“我登机的时候,就在考虑什么时间可以回来。因为,我一直认为国内才是实现自己梦想最好的地方。”就这样,他开始了长达六年的留美生活,为自己充电成为他生活中惟一的主题。

  1998年,张连毅带着梦想回到国内,他要创办一家属于自己的企业,而且这家企业一定要有自己的技术与产品!带着这个想法,他与清华大学博士陈明一拍即合,将目光瞄向了汉字录入行业。1998年8月,捷通软件在中关村成立,这也让他在六年后再次和念念不忘的HCI技术再续前缘。

  1998年当年,一款名为“录易”的汉字录入产品正式进入市场,它将手写、扫描、拼音、五笔等多种汉字输入法融聚一身。在北京商报记者眼中,这是一款在当时拥有着超前理念的颠覆性产品,它的出现让汉字输入法不再局限于某一种方式,可以满足各种人的各种需求。张连毅表示,“在我看来各种各样的汉字输入法其实就是一个工具,实现汉字录入的一个工具。我们把各种方式整合,让工具用起来更方便,这样可以满足更多人的需求”。

  “为什么选择中关村?中关村的优势在哪里?在我看来中关村有着得天独厚的优势,清华、北大、中科院这些科研院所里面可全都是人才!”有过大学校企工作经验的张连毅对大学的优质科研资源念念不忘,2000年他先后聘请我国知名语音专家吕士楠教授和北京大学顾小凤教授出任首席科学家,共同创建北京捷通华声语音技术有限公司,借助两位科学家在相关领域深厚的科研经验,捷通华声开始逐渐成为国内中文信息技术领域不可忽视的力量。

全球首个HCI感知云

  从“中国制造”到“中国创造”的改变,需要中国企业技术的不断创新。HCI技术在中国有着超过30年的发展历史,前20年大多都是在实验室研究阶段,近十年来才开始广泛应用到人们生活的各个领域,但其推动产业发展的巨大能量远未显现。

  “一个全新时代的大幕才刚刚拉开,云计算、移动互联网、大数据、HCI这些技术蓬勃发展,新的商业模式也初现曙光。当我们把所有用户的行为和需求汇集到一块去的时候,整个社会都将被技术的发展所重构。”张连毅引用百度大数据首席架构师林仕鼎的话来展开他的观点与想法。在他眼中,云计算势如破竹地撞击着传统产业,移动互联网改变着人们生活工作的方式,大数据让整个世界变得更加有规律可循,而HCI技术虽然没那么轰轰烈烈,但它却悄然地在人们的生活、工作中助力着这几大板块的应用。

  在北京商报记者眼中,“十年磨一剑”正是张连毅和捷通华声的真实写照。张连毅认为,产业化、服务化是推动HCI技术发展的动力,HCI技术的不断创新应用则是推动整个信息产业不断发展的动力引擎之一。捷通华声凭借十多年来在智能人机交互技术、移动互联网领域的雄厚积累,于2011年推出了全球第一个全方位智能人机交互感知云——灵云平台(www.hcicloud.com),为从“中国制造”向“中国创造”的全面升级提供了一个强大的“发动机”引擎。

  当盲人无法看到手机短信,却可以听取这些信息;当老年人看不清手机按键,却可以通过说来对手机下达“命令”;当司机在驾驶过程中为保证安全,通过收听语音播报获得叫车信息……云计算、大数据、移动互联网、HCI技术的快速发展、彼此交融,正悄然地改变着人们的生活方式。

构建HCI技术生态圈

  数据显示,捷通华声所拥有的自主知识产权中文语音合成、语音识别技术在国内语音交互技术市场占有率达到50%,手写识别、扫描识别技术达到35%的市场占有率,成为国内第一家倡导并实现同时提供语音合成、语音识别、手写识别、OCR、机器翻译等全系列HCI核心技术的企业。

  虽然,捷通华声在智能人机交互技术领域已经成为领先厂商,但捷通华声在该领域的耕耘远不止于此。张连毅介绍说,“虽然智能人机交互技术已经取得了非常广泛的应用,但其技术本身还存在一些不完善的地方,例如语音识别率还不能做到百分之百,语音合成虽然已经可以流利地学习人讲话,但讲话的语气及感情色彩相比真人还有一定差距。因此,业界还需要去不断学习、了解、应用、完善好这些智能人机交互技术,这需要整个产业来推动其发展”。

  日前,捷通华声的灵云开发者社区正式向整个社会全方位开放各项能力,所有的企业和个人开发者都可以免费加入到灵云开发者社区。在灵云开发者社区,企业和个人开发者均可直接下载语音合成(TTS)、语音识别(ASR)、手写识别(HWR)、光学字符识别(OCR)等多项HCI核心技术。与此同时,捷通华声还将加强技术指导,帮助开发者把不同的智能人机交互技术应用到产品上,与企业和个人开发者共同了解、学习、切磋、完善各种智能人机交互技术。

  张连毅表示,“HCI技术是一项可能永远也无法达到完美、完善的技术,不断的创新会让技术无限接近尽善尽美,但可能永远不会达到终点,这就是HCI技术的魅力所在,也是其拥有巨大市场发展空间的魅力所在。你可以做到在一个阶段领先,能够对市场起到强势的领导地位,但可能也会瞬间被甩到后面。我喜欢这样的挑战,还有更多的路需要去探索与发现”。

 

分享到: 收藏

专题