首页 > 新闻 > 专家观点 >

如何抢滩智能语音字号 打造人机智能语音交互时代

2014-06-18 09:46:14   作者:   来源:中国计算机报   评论:0  点击:


  掌控语音就将掌控一切。语音之“热”是真正的产业良机还是过度炒作?中国语音企业该选择怎样的成长路径?如何扬长避短与国际巨头一较高下?

  科大讯飞立体云、捷通华声套餐云、云知声灵巧云和百度开放云……且看各门各派如何抢滩中国智能语音市场。

  这是一个最好的时代,这是一个声控的时代,这是个光明的季节,也是个希望的春日。

  从几年前苹果Siri将语音迅速升温推至消费者面前,到现在语音助手几乎已成为智能手机、汽车电子、智能家居的标配,从人们过去在路边招手打车到现在先用微信与出租车师傅说好再出门……似乎,智能语音产业已经迎来生机盎然的春天。语音一时间成为舆论的焦点:“语音将彻底替代鼠标、键盘”,“语音将成为移动互联网主流信息入口”,“谁掌控语音谁就将掌控一切”……看好、赞扬语音之声不绝于耳。

  但一个技术从萌芽期开始不断发展,要酝酿多久才会到爆发期?智能语音产业是真的到爆发期了,还是被提前过度炒作了?智能语音产业现状和未来发展方向如何?中国智能语音企业又该如何选择适合自己的成长路径?带着这些疑问,本报记者先后采访多位智能语音专家,力求探知一二。

  莫错失赶超良机

  智能语音是新一代的人机交互技术手段之一。就像人与人之间对话交流一样,智能语音是要通过语音实现人与机器之间的交互,即机器能听懂,并能回答提问,实现对话互动。“智能语音技术主要包括语音识别、自然语言理解和语音合成三个环节,完成让机器听懂人说话,再让机器说人话的过程。这种交互需要基于海量的语料库,通过模型实现语音识别和语义理解,包括对语法、分词、情景,甚至是情绪等的理解,再通过知识库系统找到答案,然后通过语音合成技术说出答案,来回交互。”在接受记者采访时,中国语音产业联盟副秘书长李德升这样给出他对智能语音的理解。

  百度语音首席研究员贾磊在第十八届中国国际软件博览会的演讲中介绍,百度语音就是通过语音识别、语义理解和后台资源来实现“你说我听”、“你说我想”和“你说我做”的过程,打造人机交互的闭环过程。

  人机智能语音交互,说起来容易做起来难。20世纪50年代,AT&T开发出第一个语音识别系统Audry;20世纪80年代,智能语音技术研究由传统的基于标准模型匹配的技术思路开始转向基于统计模型的技术思路;21世纪初,智能语音从技术研究走向实用并进入产业化,进入呼叫中心、家电、汽车等领域;而近期,以苹果Siri发布为重要引爆点,智能语音应用才开始向移动互联网等新兴领域延伸,产业进而不断积累、发展。

  智能语音技术是人工智能的研究领域之一,其原理涉及声学、语言学、数字信号处理和计算机科学等多个学科,研究周期长,投入成本大,技术壁垒高。全球和中国智能语音市场基本形成寡头垄断的格局。随着智能语音产业的快速发展,产业竞争进一步加剧,也吸引了IT巨头和中小创业团队争相进入,与传统语音技术提供商共同角逐智能语音市场。

  在国际市场,既有像Nuance这样的占据全球62%语音市场的传统语音技术巨头,也有谷歌、苹果、微软、IBM等IT巨头的竞争参与。在国内市场,李德升告诉记者,目前我国语音技术厂商基本分为三类:一类是传统语音技术厂商,一般从科研院所基础研究脱胎,包括像科大讯飞(中国科技大学)、捷通华声(清华大学、中科院声学所、北京大学)、中科模识(中科院自动化所)、中科信利(中科院声学所)等;第二类是互联网厂商,包括百度、腾讯、搜狗等,它们为给其广大的互联网用户提供更好的增值服务,普遍采用战略合作或者收购等方式,掌握智能语音技术,推广语音服务;第三类是创业企业,像云知声、思必驰等,它们专注于某些行业领域,比如汽车、家电、教育、社交网络来推广自己的语音技术和产品。

  近几年来,移动互联网蓬勃发展,基于互联网海量数据的深度神经网络技术有力推进,智能家电、汽车电子、可穿戴设备等领域加速应用,汽车、医疗、智能家居、教育等行业应用不断拓展,智能语音作为新的信息入口,开始引领产业重大变革。

  这一两年来,我国智能语音市场也是风起云涌:2012年8月中国移动以13.6亿元战略投资科大讯飞,科大讯飞受二级市场机构投资者追捧市值超过200亿元;云知声创立仅一年就先后获得两轮投资,其中一次融资金额高达1亿元;2013年5月,捷通华声宣布来自百度、清华大学战略投资;2013年8月,百度正式宣布向开发者开放语音生态系统,包括底层的语音识别技术应用程序开发接口(API)、百度语音助手软件开发工具包(SDK);同样在这个月腾讯在微信5.0中增加语音输入功能,一出来便风靡大众,微信APP已经成为消费者每天必刷的强大APP之一;直到最近,2014年4月12日,云知声组织创业公司牵头成立“全智能交互联盟”;2014年4月29日,科大讯飞的讯飞输入法继支持粤语、四川话、河南话等方言之后宣布支持东北话语音输入;5月20日晚,锤子科技首款智能手机Smartisan T1发布,借科大讯飞智能语音技术实现语音搜索、语音输入等特色功能……整个产业一片欣欣向荣。

  “智能语音是人机智能交互的手段之一,而人机智能交互是目前中国技术企业有可能赶超国际的为数不多的产业机遇之一。产业变革是以技术为先导的。在PC/互联网时代,我国技术企业在计算机技术尤其是操作系统等方面,因为起步晚,赶超微软、谷歌等国际技术公司比较难,但在智能交互这个技术领域,相对而言,目前中西方起步差不多,如果我们能把握好现在的机会,好好练内功,发展我们自己的包括智能语音在内的交互技术,也许在这方面我们可以真正和国际公司一较高下,真正从中国制造走向中国创造。”北京捷通华声语音技术有点公司(简称捷通华声)董事长张连毅这样告诉记者。

  与张连毅持相同观点的还有科大讯飞信息科技股份有限公司(简称科大讯飞)副总裁江涛和北京云知声信息技术有限公司(简称云知声)CEO黄伟。在他们看来,智能语音是难得的一次产业良机,错过语音,中国技术企业很难再有机会赶超国际了。

分享到: 收藏

专题