首页 > 新闻 > 专家观点 >

智能语音技术成为移动互联网的重要“入口”

2014-05-14 10:06:46   作者:   来源:科技日报   评论:0  点击:


  “早上7点15的时候叫醒我”;如果你还想再睡会,就说“40分钟后叫醒我”。只要你准确的回答时间,iPhone的Siri就会非常准时的叫醒你。

  随着siri被引入iPhone 4S中,智能语音技术已经成为移动互联网界最关注的焦点之一。“这种智能语音技术区别于传统的人机对话,新型人机对话技术就是让机器从”能听会说“变成”会听能做“,即听得懂说的,懂得听什么,听不清楚了能问,最后能完成用户的任务。”上海交大计算机科学与工程系研究员俞凯介绍说。

  俞凯博士拥有剑桥大学语音识别专业的学术背景,也是国内学术界“青年千人计划”里唯一一位来自语音技术行业领域的语音专家,他曾经多次获得美国国家标准局和美国国防部语音识别评测冠军。在剑桥大学期间,他成为研究组历史上与三位语音教授都合作过的第一人,其中最知名的研究合作者便是国际语音界的权威人物史蒂夫·杨。回国后,他在上海交通大学组建智能语音实验室。

  语音识别达不到百分之百的准确,在有不确定性的情况下,机器仍可与人进行对话。基于这个研究思路,俞凯正式开启了新的智能语音技术研究之路。从开始做语音合成和对话管理,到开发整个对话系统的架构,他成为了国内智能语音技术领域研究覆盖面较广的学者。

  在剑桥大学期间,俞凯参与研发了“认知型的对话系统”,作为这个系统直接的设计和实现的负责人,他说,这个对话系统就是基于不确定性存在的情况下进一步理解,它和正常的对话系统没什么区别,就像人和人聊天一样,但是它能更好的和人聊天。这也是全球首个能够在真实世界的任务中运行的对话系统。

  “理论要和工程结合,工程要和产业结合。我不认为自己是个科学家,更多的算个喜欢钻研理论的工程师吧”。俞凯说。

  他强调智能语音技术研究对工程性和实践性要求高。语音研究和其他研究有一个最大的不同—工程和理论结合特别紧密。这是因为系统的搭建需要几千甚至上万个小时的语料,系统的运行也需要让数百万,数千万人检验能否可行。这也是工程为什么需要融入产业。

  “我的愿望是所做的技术能够被千千万万的人实际使用。”他介绍,目前在国内语音合成和识别产业化的着名企业是科大讯飞,人机对话的探索则以苏州思必驰为先。思必驰发布了国内第一个对话平台—对话工场。

  加载了“对话工场”技术的智能设备相当于装上一个“人脑”,集“听”“说”“理解”“对话”“感官”的5组对话能力。开发者可以免费借助对话工场实现语音识别、语音合成、语义理解、智能对话,声纹识别等诸多功能,可以应用于电子商务,手机游戏,生活信息服务,车载导航,智能助手等移动生活的方方面面。像联想、苏州电信、同程网、土曼智能手表、幻腾智能灯、智能家居Broadlink、驴妈妈等都采用了思必驰的语音技术解决方案。

  在移动互联网的使用上,把识别、语义理解和人机对话连在一起,帮助用户完成任务。可能在未来能够是一个新的、划时代性的变革。他说,假设移动互联设备没有屏幕,通过交互式的语音对话,系统仍能完成任务。对话式的交互可能是未来在移动互联网时代人机交互的一种常规的形式。“我希望通过语音让这个常规的形式有理论依据,能做到国内最好,甚至全世界最好,这算是一个不大不小的梦想吧。”

分享到: 收藏

专题