首页 > 新闻 > 专家观点 >

科大讯飞副总裁江涛:开启交互新时代

2012-09-24 10:22:39   作者:   来源:Yesky新闻频道   评论:0  点击:


  北京时间2012年9月13日,以“开放 诚信 融合——迎接移动互联网新时代”为主题的2012中国互联网大会进行到第三天。科大讯飞副总裁 江涛 应邀参加了今天的“第二届中国移动互联网基地招商大会”,并进行了主题为“开启交互新时代”的精彩演讲。

 
(科大讯飞副总裁 江涛 进行主题演讲)

  以下为江涛演讲实录:

  说到人机交互就是不断的让人变得更懒。十年前我们用手机的时候主要靠键盘输入,五年前iPhone带着多点触控可以用触摸操控手机。现在随着语音技术的发展,新的机会又出现了,就是智能语音技术。我在这儿说的智能语音技术就是让咱们的各种机器像人一样能说会听的技术。

  讯飞的前身是科大的人机实验室,98年科大讯飞开始创业的时候我们也是抱定一个信念,语音是人类获取信息最自然便捷的手段。未来每一个手机、每一台电视每一个汽车都会像人一样能听会说,这样的信念支持下十几年来我们就做语音支持。现在确实条件已经逐步成熟。一方面关键技术的持续进步,现在陆续都已经达到了使用门槛。现在语音识别复杂的环境下已经能够达到90%以上,语音合成自然度已经达到90%,这些依赖于云、管、端这些外部条件的逐步成熟。国际商智能语音交换方兴未艾,昨天发布的iPhone仍然把SiRi作为最大的卖点。Google作为Android平台的拥有者,它对于未来智能终端的人机交互也是非常重视的。2009年Google为VoiceSearch为作为面向移动互联网的战略性产品推出,今年6月份也推出了新一代的语音搜索。

  另外就是微软,比尔.盖茨06年的一次展会中提出过未来将在操作系统中实现自然语音的人机交互,他们收购了TeLLMEe,平台每年执行110亿次以上语音识别的请求。在中国我们东方人相对来说羞涩一点,不善于跟机器交互,但是我们还是在2010年启动了移动互联网的项目。2010年10月份我们在业界第一个发布了能同时提供高质量语音识别能力的讯飞语音云平台。一年多过去了,成果还是比较显著的,现在基于讯飞语音云的帐户已经有6000多个,上线的有几百个应用,覆盖了娱乐、虚拟形象搜索等等各个领域都有一些很典型的应用。

  语音云的用户规模快速成长,2011年底上线,当时6个月做到了一百万的用户,剩下下半年从一百万增长到了一千万的用户。今年上半年讯飞语音云用户从一千万增长到了六千万。讯飞的语音云在汽车、电视上已经有很多应用。去年广州车展最火的一款车荣威350,内置了IVOKA五的系统,就是讯飞语音云。长虹新款的电视中都把讯飞的语音交互技术作为一个最大的卖点。

  我们今年3月份在国家会议中心发布了新一代语音云,新一代语音云的后台技术到了什么状态呢?国际上有一个W最权威的语音大赛,是由美国和日本联合发起的,科大讯飞06年第一次参加就取得了第一名,今年8月份我们第七次蝉联了语音合成的冠军。讯飞的语音合成系统,在播放小说有声读物的时候自然度已经超过了4.0分。5.0分是播音员最好的发音效果,4.0是普通人清晰的发音效果。另外多语种也逐步实现全球覆盖,包括中文、英文、联合国的官方语言法文等等,另外德、意、阿拉伯这些语种也正在研究。

  科大讯飞有一个讯飞语点的产品:(演示)只要互联网上有这个人足够的声音样本我们可以构建出这样的一个人的音库来。再讲一下语音识别,讯飞在最典型的场合语音识别率都远远高出于国内国外的同行,为什么能够做到这一点,我们在语音识别最难的三点,噪声适应性、口音适应性、个性化方面都有很好的造声造法。

  对于后台的语音理解,这目前是业界的一个难点,如何让人工智能、机器能够更好的理解。现在科大讯飞我们是在特定的领域首先达到使用。现在讯飞语点20多个领域内语音系统已经有平均85%准确的理解。

  下面讲一下讯飞语言的平台,它是跨终端的个性化平台,我们通过语音通行证的机制,用户注册以后,他可以在电视、平板、手机、电脑上只要使用语音相关数据就可以在相关帐号,不同终端可以保持一致性。通过一年多的发展,我们整个语音云在可靠性和服务效率上也有明显的提升。对于开发者来说是提供了一个简单易用的平台,他可以很方便缩短语音交互应用的开发时间。我们提供了这种可视化空间的接口,可以把交互、录音安装都简化出来。应该说这个接口的尺寸我们也很好的控制了。

  刚才王煜全老师提到互联网娱乐比功能重要,我们也非常认同这一点,现在语音云基于语音的游戏还不太多,我个人觉得这块未来大有可为,我希望在座开发者对游戏比较有感觉的开发者建议考虑一下如何做出模拟现实的游戏。

  策略开发初期我们提供免费的开发支持,应用推广上也予以支持,规模阶段再进一步探讨商业模式。具体大家可以登录到我们的科大讯飞语音云平台上去利用。感谢每一位开发者你们的使用为语音云数据进行了宝贵的积累,推动了语音云效率的提升。我的介绍就到这里,谢谢大家!

分享到: 收藏

专题