语音识别技术及发展_语音识别

首页>>>技术>>>语音应用>>>语音识别(ASR)　　语音识别产品

语音识别技术及发展

陈方高升

本文简要介绍了语音识别技术的发展历史，所采用的关键技术以及所面临的困难与挑战，最后讨论了语音识别在通信等领域中的应用。

——机器能听懂人类的语言吗？我们能扔掉键盘、鼠标用自然语言操纵计算机吗？随着语音识别技术的发展，梦想正在变为现实。

——语音识别以语音为研究对象，它是语音信号处理的一个重要研究方向，是模式识别的一个分支，涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域，甚至还涉及到人的体态语言（如人在说话时的表情、手势等行为动作可帮助对方理解），其最终目标是实现人与机器进行自然语言通信。

——本文将简要介绍语音识别的发展历史，采用的关键技术，面临的困难与挑战以及广阔的应用前景。

1 语音识别的发展历史

——语音识别的研究工作大约开始于50年代，当时AT& T Bell实验室实现了第一个可识别十个英文数字的语音识别系统——Audry系统。

——60年代，计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动态规划（DP）和线性预测分析技术（LP），其中后者较好地解决了语音信号产生模型的问题，对语音识别的发展产生了深远影响。

——70年代，语音识别领域取得了突破。在理论上，LP技术得到进一步发展，动态时间归正技术（DTW）基本成熟，特别是提出了矢量量化（VQ）和隐马尔可夫模型（HMM）理论。在实践上，实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。

——80年代，语音识别研究进一步走向深入，其显著特征是HMM模型和人工神经元网络（ANN）在语音识别中的成功应用。HMM模型的广泛应用应归功于AT＆ T Bell实验室Rabiner等科学家的努力，他们把原本艰涩的HMM纯数学模型工程化，从而为更多研究者了解和认识。ANN和HMM模型建立的语音识别系统，性能相当。

——进入90年代，随着多媒体时代的来临，迫切要求语音识别系统从实验室走向实用。许多发达国家如美国、日本、韩国以及IBM、Apple、AT＆T、NTT等著名公司都为语音识别系统的实用化开发研究投以巨资。

——我国语音识别研究工作一直紧跟国际水平，国家也很重视，并把大词汇量语音识别的研究列入“863”计划，由中科院声学所、自动化所及北京大学等单位研究开发。鉴于中国未来庞大的市场，国外也非常重视汉语语音识别的研究。美国、新加坡等地聚集了一批来自大陆、台湾、香港等地的学者，研究成果已达到相当高水平。因此，国内除了要加强理论研究外，更要加快从实验室演示系统到商品的转化。

2 语音识别技术

——首先介绍一下语音识别系统的分类方式及依据。

——●根据对说话人说话方式的要求，可以分为孤立字（词）语音识别系统，连接字语音识别系统以及连续语音识别系统。

——●根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。

——●根据词汇量大小，可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。

——不同的语音识别系统，虽然具体实现细节有所不同，但所采用的基本技术相似，一个典型语音识别系统的实现过程如图1所示。

——语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外，还涉及到语音识别单元的选取。

——（1）语音识别单元的选取

——选择识别单元是语音识别研究的第一步。语音识别单元有单词（句）、音节和音素三种，具体选择哪一种，由具体的研究任务决定。

——单词（白）单元广泛应用于中小词汇语音识别系统，但不适合大词汇系统，原因在于模型库太庞大，训练模型任务繁重，模型匹配算法复杂，难以满足实时性要求。

——音节单元多见于汉语语音识别，主要因为汉语是单音节结构的语言，而英语是多音节，并且汉语虽然有大约1300个音节，但若不考虑声调，约有408个无调音节，数量相对较少。因此，对于中、大词汇量汉语语音识别系统来说，以音节为识别单元基本是可行的。

——音素单元以前多见于英语语音识别的研究中，但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母（包括零声母有22个）和韵母（共有28个）构成，且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母，这样虽然增加了模型数目，但提高了易混淆音节的区分能力。由于协同发音的影响，音素单元不稳定，所以如何获得稳定的音素单元，还有待研究。

——（2）特征参数提取技术

——语音信号中含有丰富的信息，但如何从中提取出对语音识别有用的信息呢？特征提取就是完成这项工作，它对语音信号进行分析处理，去除对语音识别无关紧要的冗余信息，获得影响语音识别的重要信息。对于非特定人语音识别来讲，希望特征参数尽可能多的反映语义信息，尽量减少说话人的个人信息（对特定人语音识别来讲，则相反）。从信息论角度讲，这是信息压缩的过程。

——线性预测（LP）分析技术是目前应用广泛的特征参数提取技术，许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型，没有考虑人类听觉系统对语音的处理特点。

——Mel参数和基于感知线性预测（PLP）分析提取的感知线性预测倒谱，在一定程度上模拟了人耳对语音的处理特点，应用了人耳听觉感知方面的一些研究成果。实验证明，采用这种技术，语音识别系统的性能有一定提高。

——也有研究者尝试把小波分析技术应用于特征提取，但目前性能难以与上述技术相比，有待进一步研究。

——（3）模式匹配及模型训练技术

——模型训练是指按照一定的准则，从大量已知模式中获取表征该模式本质特征的模型参数，而模式匹配则是根据一定准则，使未知模式与模型库中的某一个模型获得最佳匹配。

——语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术（DTW）、隐马尔可夫模型（HMM）和人工神经元网络（ANN）。

——DTW是较早的一种模式匹配和模型训练技术，它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题，在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统，目前已被HMM模型和ANN替代。

——HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性，其中一个是隐蔽的（不可观测的）具有有限状态的Markor链，另一个是与Markor链的每一状态相关联的观察矢量的随机过程（可观测的）。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样，语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述，而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点，HMM模型可分为离散隐马尔可夫模型（采用离散概率密度函数，简称DHMM）和连续隐马尔可夫模型（采用连续概率密度函数，简称CHMM）以及半连续隐马尔可夫模型（SCHMM，集DHMM和CHMM特点）。一般来讲，在训练数据足够的，CHMM优于DHMM和SCHMM。

——HMM模型的训练和识别都已研究出有效的算法，并不断被完善，以增强HMM模型的鲁棒性。

——人工神经元网络在语音识别中的应用是现在研究的又一热点。ANN本质上是一个自适应非线性动力学系统，模拟了人类神经元活动的原理，具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的，但ANN又不个有HMM模型的动态时间归正性能。因此，现在已有人研究如何把二者的优点有机结合起来，从而提高整个模型的鲁棒性。

3 语音识别的困难与对策

——目前，研究工作进展缓慢，主要表现在理论上一直没有突破。虽然各种新的修正方法不断涌现，但其普遍适用性都值得商榷。

——具体来讲，困难主要表现在：

——●语音识别系统的适应性差，主要体现在对环境依赖性强，即在某种环境下采集到的语音训练系统只能在这种环境下应用，否则系统性能将急剧下降；另外一个问题是对用户的错误输入不能正确响应，使用不方便。

——●高噪声环境下语音识别进展困难，因为此时人的发音变化很大，像声音变高，语速变慢，音调及共振峰变化等等，这就是所谓Lombard效应，必须寻找新的信号分析处理方法。

——●语言学、生理学、心理学方面的研究成果已有不少，但如何把这些知识量化、建模并用于语音识别，还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。

——●我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚；其次，把这方面的现有成果用于语音识别，还有一个艰难的过程。

——●语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决，识别速度、拒识问题以及关键词（句）检测技术（即从连续语音中去除诸如“啊”、“唉”等语音，获得真正待识别的语音部分）等等技术细节要解决。

——为了解决这些问题，研究人员提出了各种各样的方法，如自适应训练，基于最大互信息准则（MMI）和最小区别信息准则（MDI）的区别训练和“矫正”训练；应用人耳对语音信号的处理特点，分析提取特征参数，应用人工神经元网络……所有这些努力都取得了一定成绩。

——不过，如果要使语音识别系统性能有大的提高，就要综合应用语言学、心理学、生理学以及信号处理等各门学科有关知识，只用其中一种是不行的。

4 语音识别的应用

——目前世界各国都加快了语音识别应用系统的研究开发，并已有一些实用的语音识别系统投入商业运营。在美国语音识别系统的销售额逐年上升，由于使用了语音识别系统，为企业赢得了巨额收入。

——比较典型而成功的语音识别系统有AT＆T于1992年开发的VRCP系统。该系统是有五个单词（collect，person，third number，operator和calling card）的非特定人小词汇量语音识别系统，现已应用于AT＆T通信网上，可以实现自动话务员协助式呼叫，代替话务员完成五种呼叫类型，即

——●collect call——受话人付费电话，命令字col1ect

——●person-person-call——定人呼叫，命令字person

——●third-party-billing-call——第三方付费电话，命令字third number

——●operator-assisted call——话务员协助呼叫，命令字operator

——●credit card call——信用卡呼叫，命令字calling card

——为使用户使用方便，系统配有语音提示告诉用户如何使用。该系统所具有的关键词检测技术可从句子中查找到五个命令字中的一个，从而使用户在讲话时更加自然，如可以讲“collect call please”，整个系统的正确识别率超过99％。

——此外，已经实用的系统还有AT ＆ T 800语音识别服务系统，NTT ANSER语音识别银行服务系统，Northen Telecom股票价格行情系统，使得原本手工操作的工作用语音就可方便地完成。

——从语音识别技术的发展可以看出，科学技术推动了社会发展，满足人们的需求，社会需求也反过来推动科学技术发展。多媒体时代的来临，迫切要求解决自动语音识别的难题，必然推动语音识别理论和应用研究的进展。估计在本世纪最后几年至二十一世纪初，语音识别技术将会在理论上和应用上都取得突破性进展。到那时，我们将体会到语音识别带来的种种便利。

语音识别技术及发展

陈方 高升

陈方高升