语音识别应用促进技术发展_语音应用_语音识别

语音识别应用促进技术发展

清华大学刘加 2006/07/31

　　语音识别算法虽然还有很多问题没有解决，但语音识别技术已经开始逐步进入实用阶段。在发达国家语音识别技术已经用于信息服务系统和查询系统，人们可以通过电话网络查询有关的信息，并且取得很好的结果。

　　语音识别算法虽然还有很多问题没有解决，但语音识别技术已经开始逐步进入实用阶段。在发达国家语音识别技术已经用于信息服务系统和查询系统，人们可以通过电话网络查询有关的信息，并且取得很好的结果。用户交换机、电话机、手机也包含了语音识别拨号功能。调查统计表明多达80%以上的人对这些服务表示满意。中小词汇量的语音识别系统（<200词）已经达到可以实用的阶段。目前国外对具有口语对话系统和语音芯片技术的研究和开发投资也在大量增加。

　　语音芯片的应用

　　近年来语音芯片应用越来越广泛，主要包括:

　　1.电话通信中的语音拨号。特别是在中、高档移动电话上，现已普遍具有语音拨号的功能。随着语音识别芯片的价格降低，普通电话上也将具备语音拨号的功能。

　　2. 汽车的语音控制。由于在汽车的行驶过程中，驾驶员的手必须放在方向盘上，因此在汽车上拨打电话，需要使用具有语音拨号功能的免提电话通信方式。此外，对汽车的门、窗、空调、照明以及音响等设备，同样也可以由语音来方便地进行控制。

　　3. 工业控制及医疗领域。当操作人员的眼或手已经被占用的情况下，在增加控制操作时，最好的办法就是增加人与机器的语音交互界面。由语音对机器发出命令，机器用语音做出应答。

　　4. 个人数字助理（Personal Digital Assistant，PDA）的语音交互界面。PDA的体积很小，人机界面一直是其应用和技术的瓶颈之一。由于在PDA上使用键盘非常不便，因此，现多采用手写体识别的方法输入和查询信息。但是，这种方法仍然让用户感到很不方便。现在业界一致认为，PDA的最佳人机交互界面是以语音作为传输介质的交互方法，并且已有少量应用。随着语音识别技术的提高，可以预见，在不久的将来，语音将成为PDA主要的人机交互界面。

　　5. 智能玩具。通过语音识别技术，我们可以与智能娃娃对话，可以用语音对玩具发出命令，让其完成一些简单的任务，甚至可以制造具有语音锁功能的电子看门狗。智能玩具有很大的市场潜力，而其关键在于语音芯片价格的降低。

　　6. 家电遥控。用语音可以控制电视机、VCD、空调、电扇、窗帘的操作，而且一个遥控器就可以把家中的电器皆用语音控制起来，这样，可以让令人头疼的各种电器的操作变得简单易行。

　　语音识别专用芯片系统有如下几个特点: 1. 多为中、小词汇量的语音识别系统，即只能够识别10～100词条。只有近一两年来，才有连续数码或连续字母语音识别专用芯片实现。2. 一般仅限于特定人语音识别的实现，即需要让使用者对所识别的词条先进行学习或训练,这一类识别功能对语种、方言和词条没有限制。有的芯片也能够实现非特定人语音识别，即预先将所要识别的语句码本训练好而装入芯片，用户使用时不需要再进行学习就可直接应用。但这一类识别功能只适用于规定的语种和方言，而且所识别的语句只限于预先已训练好的语句。3. 由此芯片组成一个完整的语音识别系统。因此，除了语音识别功能以外，为了有一个好的人机界面和识别正确与否的验证，该系统还必须具备语音提示（语音合成）及语音回放（语音编解码记录）功能。4. 多为实时系统，即当用户说完待识别的词条后，系统立即完成识别功能并有所回应，这就对电路的运算速度有较高的要求。5. 除了要求有尽可能好的识别性能外，还要求体积尽可能小、可靠性高、耗电省、价钱低等特点。

　　语音识别技术发展

　　在发达国家各种各样基于语音识别技术的产品已经可以买到，如具有声控拨号电话，语音记事本等等。语音电话服务、数据查询服务也已经部分实现。基于特定任务和环境的听写机也已经进入应用阶段。语音识别技术是非常重要的人机交互技术，有着非常广泛的应用前景。

　　说话者自适应技术近年在语音识别系统的研究中也备受重视，这是由于与人有关的语音识别系统比与人无关的语音识别系统的识别率要高很多。通过有效的自适应手段可以很快地提高系统的识别能力。实际上说话人自适应技术和稳健语音自适应技术是相通的。由于不同的说话人在声道长度，说话口音方式都很不一样。说话者自适应技术也主要是从以下两方面着手。

　　静态处理方法。从特征提取或训练阶段就尽可能减少来自说话人的变化因素对模型的贡献。可以进行声道参数的归一化处理或对说话人进行分类处理，如分男女声的识别系统就是其中的一个典型，但实际上仅仅从男女声上对模型分类还是太粗，可以通过有效的聚类方法进行分类。这类方法统称为声学归一化处理方法。

　　动态处理方法。对预先训练好的与人无关识别系统，通过临时得到的特定人语音数据对系统的模板或特征参数进行自适应修正，从而在原有系统基础上建立一个用于特定任务、特定环境或特定说话人的系统，这类方法统称为自适应方法。自适应方法可分为: 批模式、累进模式、即时模式; 按自适应学习策略又分为无监督学习和有监督学习。从用户使用的方便程度来看是由难到易，而算法实现则是由易到难。采用何种策略取决于应用背景，对识别率的要求等因素。对于听写机等应用来说，最具吸引力的是累进、无监督的自适应方式，也称在线自适应。

　　语言模型也是目前研究的一个重要方面。目前的语言模型是与任务有关的，典型的统计语言模型是通过大量任务特定的语料训练出来的。通过新闻语料训练出来的模型不能很好地工作于法律方面的文件语音识别。有几种方法用于解决这些问题。一种是使用自适应语言模型。在静态语言模型的基础上，通过一个高速缓冲存储器对语言模型进行动态的修正; 另一种是先训练多领域语言模型，然后通过混合高斯模型将这些模型结合在一起; 还有一种比较好的办法是使用大颗粒的语言模型，如基于类的语言模型，而不是基于词的语言模型，类可以是词性类，词义类，以及由一定的数据驱动的聚类算法产生的各种类。

　　由于不同词可以属于同一类，这样类比较大，构成的语言模型就比较稳健。其关键的问题是如何决定词的分类，由于词的分类比较复杂，同一词可能属于不同的类，特别是解决如何通过计算机实现自动分类的算法，即使用数据驱动算法也还没有很好地解决。基于统计技术的计算语言学已经越来越受到重视，它解决了单独规则语言模型不能解决的一些问题。当然统计语言模型也不能解决全部问题，因此如何把统计语言模型和基于规则的语言模型结合也是语言模型研究的重点之一。

　　目前不同快速语音识别算法都在开发中。其中包括对HMM状态输出的概率分布进行矢量量化，缩小搜索空间算法，减少计算机的内存需求方法，以及结合计算机结构特点的编程技术的应用。

　　链接:稳健语音识别技术

　　语音识别系统的稳健性技术是到目前还没有解决好的重要问题。稳健语音识别要解决的问题是训练环境和实用环境不同而导致的不匹配问题。由于环境变化多种多样，识别系统要面对不同说话风格的人（包括说话快慢、音调、重音变化、情绪变化、年龄不同、声道长度的不同等等）、不同麦克风的种类（包括麦克风的相对位置和方向变化）、信道畸变和噪声，以及说话的环境（包括房屋回响、背景噪声等）。

　　稳健语音识别技术包括三个方面:1. 稳健语音特征提取和预处理技术。其中包括噪声掩盖处理技术、特征变换、听觉模型，以及不同稳健和可信度测度的研究。研究的中心是最大可能的开采语音中的整体信息，以便尽可能地减少噪声的干扰。2. 多样式的训练是一种有效方法，但这种训练要求取得大量不同噪声情况下的语音数据，这使该种方法实现非常困难。3.自适应的特征或模型的补偿技术。其中包括简单的自适应均值偏差消除，进一步包括方差补偿，线性和非线性的回归和变换，基于状态的滤波，语音和噪声复合模型，最大后验自适应算法，随机匹配算法。这些不同技术有的仅仅在不同的小范围内获得有限成功，还没有一种技术在大词汇量的语音识别系统中获得成功。

计算机世界网(www.ccw.com.cn)