IBM中国研究中心 沈丽琴 博士 2000/09/13
直到今天,像人一样的机器人依然显得遥不可及,但作为机器人的耳朵,语音识别技术近几年有了许多突破性进展,终于从实验室走进了我们的生活。
首先,将隐马尔科夫模型引入语音识别是该领域的重要突破。它有效体现了语音信号的随机概率过程,它成熟的训练算法又为语音模型的建立提供了基础。至今,这仍是语音建模的主流方法。在随后的研究中,科学家们发现同样一个音,在它的上下文不同时,发音的特征不尽相同。为了更准确地描述这些变化,决策树被用来描述和记录上下文对语音模型的影响。另外,我们在听别人讲话时,并不一定听清了对方发出的每一个音,但根据谈话的主题和我们的语言知识背景,可以猜出那些没听清的音是什么,而且毫不影响我们的交流。这就是语言模型的功劳了。它帮助我们在听到前面的谈话内容后,猜测后面会说什么,特别是有同音词和近音词的时候,帮助我们消除歧义,确定正确的说话内容。IBM的科学家们发明了n元的统计语言模型,通过输入给计算机大量的文字资料,让它“学习”和“记忆”人们会怎么用词,组句。可是,语音识别需要的计算资源太大,没有新的突破它依然只能是实验室技术。特别是要听懂人们日常讲话,因为我们常用的词汇太多,有好几万,科学家们想出了先用快速匹配方法,用很小的计算量很快地找出与发音相似的候选词,然后在缩小的范围中,进行仔细计算,这显著提高了大词汇系统识别的速度。还有其他一系列不胜枚举的重大突破。IBM的许多科学家在这领域长期不懈的努力和获得的一百多项专利,确定了公司技术上的领先地位。另外值得一提的是,得益于这些年微处理器的速度加快,成本降低,语音识别才真正能够走入我们的生活。
创造先进的技术是根本,将技术用于生活和工作,服务于人类才是最终的目的。1997年,IBM公司推出了世界上第一个中文连续语音识别产品——ViaVoice4.0,终于突破了连续语音、大词汇量和非特定识别人的难关,并成功解决了汉语同音字多、有声调、口音复杂等问题,帮助人们从笨拙的键盘输入中解脱出来,因而被广泛认为是汉字输入的重要里程碑。这项技术对中国人的意义尤其重大,因为汉字的键盘输入对许多人来说都是很困难的。至今为止,IBM共有13种语言的语音识别产品。但是听写机只是一个开始,直到去年的ViaVoice巍巍世纪版,更有语音控制、语音上网、网上聊天等功能,让人们能真的轻松运用计算机。(IBM中国研究中心沈丽琴博士)
IBM在去年年底发布的电话语音识别技术可以使许多商家的服务更 周到,更多的电话用户受益。有了这项技术,各种信息查询、飞机订 票、旅馆预定等都可以实现自动化。利用IBM的语音识别技术通过电话 上网,用户只需说出你想得到的网上信息,机器就会自动识别,将你 的请求送到互联网上,并把返回的相关信息用语音合成技术回放给你, 为用户提供人性化的语音应答交互界面。这样,众多的电话用户就可 以享受到网上信息服务。
越来越多的掌上设备正慢慢成为许多人的生活和工作必备品,比 如手机、电子记事本,IBM的WorkPad等。这些小的设备或者没有键 盘,或者只有简单的数字键,输入和各种操作都十分不便。如果能用 人们觉得最自然的方式———语音进行控制,人们将更加青睐这些灵 巧的伴侣。IBM公司将已经在高端计算机上发展的语音技术进行简化, 抽取其中的核心技术,研制出用于这类低端设备的识别引擎,并在市 场中的某些掌上电脑上成功建立了实用的原型系统,证明了技术的可 行性。相信在不久的将来,人们完全可以用语音操作手机和各种掌上 设备。
为了让人与机器的交流更加自然,我们需要机器不仅能识别准用 户说的话,更要理解它,然后去执行相应的动作。比如,用户通过语 音订房,要求“订一套10月12日在某某酒店的单人房”。当用语音识 别技术识别出这句话后,机器还需要理解客户入住的时间是“10月 12日”,酒店是“某某酒店”,房型是“单人房”。然后将这些需求 送给系统才能完成预定。这是自然语言理解的技术。目前还不十分成 熟,但已初步使用。同时机器必须产生合适的回答把得到的信息(如 是否有房,价格等)反馈给用户,或提示用户需要进一步的信息(如 请用户提供离店日期等),这就是自然语言产生的技术。产生准确地 应答也是一项十分具有挑战性的技术。另外相关的技术还有,在许多 应用场合,需要说话人辨识技术,以便通过语音判断说话人是谁,免 去用户记忆难记的密码。提供更友好的系统与人的交互界面。
当然,语音识别本身也还没有达到完美,还有许多挑战等待着科 学家去一一攻破。比如对不同噪声环境的适应;两种或多种语言夹杂 使用的语音识别;或者特别随意的对话识别等等。可以看到,语音识 别技术将让我们体会到技术创新给人类带来的轻松和效率。
《光明日报》 2000/09/13