首页 > 新闻 > 专家观点 >

对话捷通华声张连毅:中关村HCI技术已与世界同步

2014-05-05 13:53:25   作者:北京商报记者 韩琮林   来源:CTI论坛   评论:0  点击:


  近年来,智能人机交互(以下简称“HCI”)技术已成为全世界学术界、产业界最活跃的领域之一,智能语音交互、智能图像识别、自然语义理解、生物特征识别等HCI技术的进步,也在影响并改变着更多产业的发展进程。它像是润物细无声的春雨一样,正默默地改变着人们的工作与生活方式。

  在中关村,HCI技术的发展不仅能够保持与世界同步,并且在一些领域保持着领先地位。今天让我们跟随张连毅走进这个在很多人眼中神秘的领域,体验它的魅力。

  26年前,张连毅于清华大学毕业。2013年,他以另外一个身份再次回到清华大学。人的一生有多少个25年?“HCI技术是一项可能永远也无法达到完美、完善的技术,不断地创新会让技术无限接近尽善尽美,但可能永远不会达到终点,这就是HCI技术的魅力所在。而我和清华大学的缘分也将没有终点地持续下去。”他用这样一段话来解释自己和清华大学的不解之缘。

  北京商报:智能人机交互技术是什么?

  张连毅:人与机器的交流像人与人交流一样简单自然,如果要实现这一梦想,就必须让机器具备更多像人一样的能力。伴随着技术的进步,这一梦想正逐步得以实现,而这就是智能人机交互技术,也称HCI(Human-Computer Interaction)技术。从最早的OCR,让电脑像人一样拥有了眼睛;到手写识别,让电脑像人一样拥有了手;从语音合成,让电脑像人一样说话,就像拥有了人的嘴;到语音识别,让电脑能够听懂人的语言,就像拥有了人的耳朵;再到自然语言理解,电脑正逐渐学会像人一样思考;现在的生物特征识别技术,如人脸识别、掌纹识别等技术,不仅使电脑变得越来越像人,而且已经开始展现超越人的能力。

  北京商报:HCI会为我们的生活带来怎样的改变?

  张连毅:纵观国内外信息产业发展趋势,HCI产业作为一个新兴的产业集群正在迅速崛起,智能语音交互、智能图像识别、自然语义理解、生物特征识别等HCI技术的进步,也在影响并改变着更多产业的发展进程。从百度导航、导航犬这样的导航软件,到嘀嘀、快的这样的叫车软件,从办公室内的文件扫描识别,到手机中的天行输入法,从天行听书这样的随身听书软件,到谷歌眼镜的图像识别技术,从智能手机到可穿戴设备,这里面浓缩着众多HCI技术的成果。它像是润物细无声的春雨一样,正默默地改变着人们的工作与生活方式。

  北京商报:中国的HCI技术在国际上处于什么地位?

  张连毅:近年来,HCI技术已成为全世界学术界、产业界最活跃的领域之一,而中国HCI技术的发展不仅能够保持与世界同步,并且在一些领域保持着领先地位。

  北京商报:什么原因让中国的HCI技术获得了今日的成功?

  张连毅:在我看来,除了很多企业所做出的贡献,也离不开清华大学、北京大学等高等院校、科研院所几十年来所做出的杰出贡献。自上世纪80年代起,清华大学率先在国内开展智能图像识别、智能语音交互等HCI技术研究,一直是国内HCI领域最重要的研究力量,保持并拥有在学术、科研、产业化应用的领导地位,并不断为中国乃至世界学术界、产业界培养、输送大批优秀人才。

  北京商报:去年底,捷通华声和清华大学开始了新一轮的战略合作,并在语音识别技术上取得优异成绩,业界有人评价这次合作将重新改写中国语音产业,甚至改变HCI产业的市场格局,您怎么看?

  张连毅:捷通华声的语音识别技术在清华大学的支持下已达到国内外最高水平,确实在产业内引起不小的影响,也很快就改变了国内现有智能语音技术领域的竞争格局。但捷通华声与清华大学合作,不仅局限在智能语音技术领域,我们也将在HCI技术领域展开全方位的合作。

  捷通华声自1998年就开始专注于语音、手写等多种HCI技术的研究与应用,2011年,捷通华声在国内推出了第一个全方位智能人机交互技术云服务平台——灵云,灵云提供包括语音合成、语音识别、手写识别、OCR、自然语言理解等多种HCI技术能力,并向社会、产业全面开放。灵云平台自推出以来,展现出越来越强劲的市场需求,仅在智能手机领域,目前就有数千开发者应用灵云各项HCI技术开发了上千款智能手机应用。

  在发展灵云的过程中,我们意识到面对这样一个宽广的技术领域与巨大的市场,捷通华声不能完全仅凭自己的力量发展HCI技术,而在HCI技术领域,清华大学的科技力量一直是全国最强大的,捷通华声管理团队都是毕业于清华大学,因此我们就想到与清华大学合作,通过灵云平台帮助清华大学将HCI领域的研究成果与广大的市场需求对接,促进科技成果转化;同时,清华大学也在探索产、学、研一体化创新体制,学校鼓励清华实验室与教授们将自身的科技成果转化为真正的生产力,服务产业、服务社会大众,因此我们的想法得到了清华大学HCI相关技术实验室与教授们的支持与鼓励,双方很快就在智能语音、智能图像等多个HCI技术领域展开了技术合作,双方合作得非常顺利与自然。

  与清华大学的合作是捷通华声发展中一个里程碑式的事件,虽然我们已经在语音识别技术上取得了丰硕的成果,但也应看到,智能语音产业是HCI产业集群的组成部分。未来发展中,我们将依托清华大学在HCI技术领域中的雄厚研究力量,全面推动中国HCI技术的发展进步,共同构建产学研一体化的创新发展新模式,推动实现“灵云科技 源自清华 服务全球”的战略规划。这样,不仅将帮助捷通华声,也必将帮助一大批中国企业提升企业核心竞争力,促进中国HCI产业新格局的诞生,提升中国HCI产业在世界范围内的核心竞争力。

  北京商报:捷通华声如何达到服务全球的目标?

  张连毅:目前,灵云多语种语音合成技术已全面支持中文普通话、粤语、英语、法语、俄语、西班牙语、意大利语、德语、葡萄牙语、日语、韩语等13种语言,覆盖全球90%以上的国家和地区,与我们覆盖92种语言手写识别技术可谓“珠联璧合”。这在另一个方面也说明,灵云平台已开始具备服务全球的基本能力,如今,有了清华大学的支持,我们在多语言HCI技术能力上也将越来越强。灵云的发展一定会为中国企业进军国际市场、全面参与国际竞争提供更多的HCI技术能力支撑。

  北京商报:您对捷通华声的未来有什么样的规划?

  张连毅:未来,捷通华声将在与清华大学合作的基础上坚定推动“灵云科技 源自清华 服务全球”的战略发展规划,同时也将不断与国内外学术界、产业界,包括国际跨国企业进行合作,力争通过全球范围的合作,为世界各国用户提供更多、更好、更全面的HCI技术能力,将灵云平台打造成国际品牌,也将合作共赢的理念通过灵云HCI技术能力融入中国、融入世界。

  “欢迎北京商报的记者来公司交流沟通,我们一起聊聊智能人机交互技术在现代生活工作中的应用。”伴随着捷通华声董事长张连毅的一条语音短信,北京商报记者开始了这次专访。

  “免费打车”的幕后英雄

  “今天怎么打车”是前一段时间最为热门的话题之一。用手机软件打车的新习惯正在北京、上海、杭州等地的年轻人群中逐渐养成。花上不多的流量用手机软件预约出租车,即便在上下班高峰时间段,也有可能在中心城区获得不一般的“礼遇”——一辆出租车专门为你而来。

  这一话题源自今年1月,嘀嘀打车和快的打车两大“打车神器”先后推出软件叫车的优惠服务。记者在采访中了解到,“打车神器”不仅改变了叫车方式,甚至改变了不少出租车司机的运营习惯,还有司机师傅专门购买了新手机“抢单”。

  除了可以享受“免费打车”,软件使用的便捷无疑是引爆这一话题的重要因素。如果您是一名乘客,只需要打开软件像发送微信一样发送一段语音信息,就可以坐享便利的打车服务。如果您是一名的士司机,您只需要聆听手机中传来的叫车信息,就可以便捷接单。

  但是很多人却不知道,在这两款“打车神器”中,捷通华声“灵云”平台起到了不可忽视的作用。当用户发送语音需求后,语音信息将通过灵云的语音识别将其转化为文字传送到服务器,服务器再根据打车地点分配到附近的司机客户端。而如果您发送的是一条文字信息,那文字信息将直接发送到服务器,服务器同样根据打车地点分配到附近的司机客户端,再通过灵云语音合成将其转化为语音播放给司机。

  这看似简单的一听、一说之间,汇聚的是捷通华声十多年的默默耕耘。

分享到: 收藏

专题