发表评论分享按钮

Siri开发商推出普通话应用 声调成最大挑战

2012/03/23

  北京时间3月21日消息,据国外媒体报道,国外媒体日前发表分析文章称,语音识别软件开发商Nuance通信公司除开发了苹果语音助手Siri外,还推出了一款智能手机语音应用Dragon,这项应用支持多种语言,但在汉语普通话的应用上,声调成了这项应用面临的最大挑战。

 
图:智能手机语音应用Dragon

  以下是文章全文:

  在期待着苹果今年推出中文版Siri的同时,我决定试用一下Nuance开发的另一款智能手机语音应用Dragon,这项语音应用支持多种语音,包括汉语普通话。

  尽管与其他多数语音识别软件一样,中文版Dragon无法达到百分之百的准确,但是总的来说表现还是相当惊人的。首先,汉语的声调对语音识别来说极具挑战性,汉语普通话仅有400个单章节发音,是按照声调来区分不同单词的。这会意味着什么呢?

  以妈妈的“妈”为例,“妈”字读一声“mā”,读四声就是“骂”(mà),读三声则为“马”(mǎ),而所有这些字的发音都像“ma”,只是声调不同,所表示的意思也是大相径庭。开发一款能够识别“妈妈骂马”(māmā mà mǎ)的句子的软件是件非常困难的事。

  尽管汉语普通话是中国的国语,但是汉语有七大方言和无数的地方口音。Nuance负责Dragon应用开发的副总裁吉姆•吴(Jim Wu)表示:“在中国大陆,每个人都有不同的口音,我们所面临的挑战之一就是确保该语音识别系统能够识别那些说普通话且口音较轻的用户的语音。”

  Nuance总部位于美国马萨诸塞州伯灵顿,公司2011财年实现营收14亿美元。Nuance在推出英文版Dragon 应用后不久,便于2011年3月推出了两款免费的汉语普通话版Dragon应用,6月份又推出了广东话和台湾话版的Dragon应用。Dragon Dictation应用可以转录文本、电子邮件、Facebook和Twitter信息。Dragon Search应用则可以用于互联网搜索。与Siri不同,Dragon无法与用户实现互动。

  使用Dragon应用时,用户需要点击一个虚拟“按钮”来开始和停止录音。Nuance首席营销官彼得•马奥尼(Peter Mahoney)表示,所有处理都是在服务器上进行的,用户的语音信息是在被传输到服务器上后,由服务器来收听、录制,然后将文本信息传回到设备上的。

  对于像“最近的星巴克咖啡厅在哪里”和“我要去市场”这样的一些基本语句,Dragon识别起来没有什么问题。但对于许多用户来说,真正的乐趣是测试设备的识别极限,看看这项技术能够在多大程度上匹配人类的语言和思想。因此,我用汉语绕口令来挑战Dragon应用的极限:妈妈骑马,马慢,妈妈骂马。这句话的发音就是“Māmā qí mǎ, mǎ màn, māmā mà mǎ”。Dragon能够捕捉到大部分正确的发音,但是并不能给出正确的单词。Dragon给出的结果是:妈妈起码,妈妈妈妈吗?吗?,这里面的一个问题就是这些单词的发音都是“ma”。

  马奥尼表示,尽管Dragon还不能完全准确地识别语音,但是这项应用具备自主学习和改进的功能。由于所有语音处理都是在服务器上进行的,因此Dragon收集用户语音数据来学习语言的结构和词语的组合。Dragon还习惯每个用户的地方口音,因此使用越多,Dragon识别语音就越准确。马奥尼还表示:“这些录音将保存下来,我们可以使用自动化工具对结果进行分析。有时候,你需要用录音让人们进行对比,看看怎样才能做得更好。”

腾讯科技



相关阅读:
Nuance Research:消费者喜爱的移动应用功能有哪些? 2012-03-22
科大讯飞联姻中国联通 布局人机交互等待收获 2012-03-19
工信部:移动互联网应用增速中国居全球第一 2012-03-19
Siri续写苹果传奇 中国Siri在哪里? 2012-03-16
科大讯飞与中国联通签署战略合作协议的公告 2012-03-16

热点专题:  语音合成TTS 语音识别ASR    移动互联网
分类信息:  移动互联网_与_语音应用  移动互联网_与_移动  移动互联网_与_移动