自然语言技术支持新一代语音上网
L&H公司高级副总裁及亚太区总裁 胡国辉博士
近年来,语音技术得到了迅猛的发展,功能强大的语音合成、语音识别软件、语音听写软件、多语种翻译系统及信息撷取系统应运而生。
语音产品存在的问题
不过,语音产品要全面普及,还须克服诸多困难。用户经常遇到的问题主要集中在以下各个方面:
准确度 机器翻译、文本到语音软件(TTS)及听写软件的准确度通常只有80%至90%,也就是说,常常需要用户手工修正处理结果。
训练过程 语音识别软件往往需要用户花大量时间“训练”相关系统,以便使该系统能够识别用户的话音和语调;否则,准确程度可能不足80%。
易用性 声控系统经常要求用户使用硬性规定的语句,因此用户必须死记硬背指令。
亲切度 很多文本到语音系统仍停留在机器发声阶段。
这些不足之处主要是由于相关技术不能理解文字之间的关系和含义,因而往往难以识别正确的口授文字,而语音指令又不得不被限制在较小的文字范围内。缺乏对上下文的正确理解使得文本到语音的翻译发音不清,而翻译软件也往往翻出一些令人费解的语句。
采用的新技术
新一代的自然语言技术(Natural Language Technology,简称NLT)结合了语言学、认知科学、言语处理、工程学、词典编纂学及数学的精华,大幅提高了语音技术理解文字关系和文字真实含义的能力。
在语音识别软件中,NLT利用有关语言结构及字词的使用概率确定字词的正确含义。其他相关的NLT常用处理程序、技巧有:
对话技术 可识别用户的目的,储存特定谈话信息,并决定如何针对用户话音作出反应。此技术可用于数据搜索,因而用户可以通过语音指令查询股票报价或在互联网上找寻资料、向软件系统发出声控指令、交互式视频及公共信息服务。
信息管理工具 多用于搜寻大型数据库的信息。通过NLT,搜索器不单单搜索包含搜寻字词的文件,也会搜索包含该字词的同义词/变体词的文件。
词汇数据库 除了字词本身外,也包含字词的语言学特性。几乎所有NLT都不能缺少词汇数据库。数据库越大、条目编码及核对越仔细,NLT的功能就越理想。
语音处理 可让用户以语音识别的方式在字典中加入新字,用户可执行规定的发音规则或利用相关技术进行“字母到声音”的转换,实现语音加入新字。
过去十多年里,L&H公司在语音处理及语言学方面凭借丰富的经验不断开发NLT。L&H的NLT广泛应用在不同产品之上,是当今开发、改良和应用自然语言系统的供应商。
改善语音识别产品的功能
NLT有助于改善语音识别产品的功能,并增强其通用性。如果没有NLT,支持这些产品的语音识别技术便只能将数字化的声音与预先储存在声音数据库中的“音素”作对比,然后按照统计学模式,作出选择。NLT率先确定了用户声音的功能和含义。例如,当用户说出数字的时候,NLT会帮助语音识别产品确定该数字是日期、时间还是币值。NLT能同时分析语言,识别语法结构,它也能执行复杂的指令,无需用户分步骤给出多项指令。
借助NLT技术,L&H公司开发了电子邮件阅读器,可以将邮件中的文字转化为语音。NLT能够通过上下文关系分析字词,并发出接近自然语言的声音。如果遇到写法相似但含义不同的字时,该系统可避免发音错误和出现歧义。
毫无疑问,NLT能促进人机语言沟通。在未来的数年里,NLT可望将大众不甚了解的应用系统发展成常规产品,并将常规应用发展成为性能优越的系统。NLT还可消除自然语言沟通及理解中遇到的障碍,因此将广泛应用在信息服务站、手持语言翻译器、翻译电话、互动式家用电器、声控语音上网等各个领域。
摘自《中国计算机报》2000.07.06
| 双节流行3G视频新业务——化身(AVATAR) 2009-09-17 |
| Ditech语音转换文本技术将打造新型移动服务 2009-09-14 |
| 科大讯飞嵌入式语音新产品发布会在深圳举行 2009-09-07 |
| 英国科学家成功开发识别多种语言唇读技术 2009-09-07 |
| Convergys定制式语音鉴权方案获市场领袖奖 2009-09-02 |