语音识别前景如何?
郑方 1999/12/06
郑方,1967年生于江苏省,获清华大学计算机科学与技术专业学士、硕士及博士学位。现为清华大学副教授,清华-adidsp技术研究中心主任及语音实验室主任。郑方作为主要承担者或负责人参与了许多语音识别领域的国家重点攻关项目和863高科技项目并多次获奖。另外,他还负责开发了若干基于ti和adi的dsp语音识别产品。他的专业兴趣包括信号处理,声学/语言模型建模,孤立词/连续语音识别,关键词检出,语音听写,语言理解等。现为ieee会员,中国《中文信息学报》编委。他已发表40余篇有关语音处理的学术论文,其中数篇获奖。
在以计算机或类计算机为核心的电子产品时代,人机交互技术正成为各国研究的重点之一。
所谓人机交互技术,就是利用人类自身的语言、文字、图像等进行人机之间通讯的技术统称,人机自然语言(语音)通讯是其中较具潜能的一种。由于具有理解人类自然语言的计算机智能是新一代计算机的重要特征,围绕人机自然语言交互技术有关课题的研究是当今计算机、人工智能和信号处理研究的前沿热点课题,难度很大,既有很强的理论性又有很强的实验性。
人机语音交互的关键技术包括:语音识别与理解、语音合成和机器翻译等。这些关键技术本身又具有广阔的应用和市场前景,其中尤以语音识别为甚。许多国家都制定了专门计划大力开展语音识别方面的研究,其中包括美国的darpa、英国的alvy、法国的escep、中国的863和973等计划。汉语的人机交互技术因汉字的计算机输入问题而更有着极其广阔的市场应用前景。
研究领域
广义的语音识别应该是一个统称,指与语音数字信号处理相关的各种意义上的识别。具体地讲,它包括以下几个方面。
(1)识别说话的内容是什么。按词表大小分,有小词表、中词表和大词表语音识别;按发音方式分,有孤立词、连接词和连续语音的语音识别;按说话人适应范围分,有特定人、限定人和非特定人语音识别。随着语音识别的发展,派生出的新课题还有关键词识别或称关键词检出,这在基于内容的信息检索中将会发挥很大的作用。美国bell实验室80年代推出的5个关键词识别系统是一个成功的范例,它目前广泛用于美国at&t的电话设备,可以对用连续语音表述的各种不同付费方式通过关键词检出进行分流,每年为at&t公司节省数亿美元的接线员人工费。
(2)识别说话人是谁。和内容识别不同,内容识别是说话人共性的识别,而说话人识别则是个性的识别,即所谓的声纹识别。该技术为说话人的身份鉴别和确认、个性化环境配置以及信息安全等提供了一种可选的方案。
(3)识别说的是什么语言。这就是语种识别。随着语音识别的多语种化和混合语种化,在把语音分拣到不同语种的识别器之前,语种识别起到了很好的预分流作用。
(4)评价说话的标准程度。这是说话发音评分。其目标是给出用户发音标准程度百分制得分并指出发音不标准的地方,供学习者参考,可以广泛用于语言教学应用中。这里的难点是如何给出“百分制得分”和如何指出发音不标准的地方,有时往往需要综合利用诸如语音确认和拒识、声调识别、韵律识别等综合技术。
典型应用产品
从应用的角度讲,目前在市场上有以下几种典型的语音识别产品。
(1)语音命令和控制,这是无论从技术还是应用角度讲都已经很成熟的中小词表孤立词语音识别。可以广泛应用于诸如语音命令导航、家电语音控制、声控电话号码簿和声控拨号、个人数字助理等。但是要使其真正好用并被用户广泛接受,没有关键词检出技术是不行的。
(2)非特定人、大词表、连续语音识别,即语音听写机,代表了语音识别的最高目标。美国ibm公司的voicetype和viavoice、美国dragon公司的naturallyspeaking、我国台湾声硕公司的“说亦通”,以及我们实验室的easytalk等都属于这类产品。
这类产品在某种程度上讲已经取得了很大的成功,但是很多方面的因素却影响了它的推广。第一是用户的语音产品观念和对语音产品的认同程度;第二是产品的识别率;第三是产品的易用性和友好程度。如果说这三个因素可以通过技术人员和市场人员的努力而逐步得以改善的话,那么下面一个因素将几乎成为一个先天不足、后天不良的不利因素。由于语音听写机没有语言理解功能而只能定位在语音打字这样的应用市场上,但在用语音进行“打字”时,用户容易口干舌燥,内容容易泄密,“打字声”会影响周围同事的工作。这第四个因素是一个只有负面效果的客观因素,极大地限制了听写机的推广。
但是,对技术研究人员来说,语音听写机作为连续语音识别先进技术集成者的体现,从技术积累和探索的角度还是应该进行深入研究的,因为它所包含的语音识别核心技术从声学角度讲代表了语音识别的最高目标,也是其他一些重要语音研究和应用的基础。
(3)说话水平评测。这类产品在很大程度上属于多媒体教学软件。从技术的角度上讲,它包含结果已知的语音识别、语音确认与拒识,以及百分制映射等三部分。该类产品下一步要攻克的问题,除了语音识别本身的问题外,还包括对说话韵律的判别及如何技术性地指明发音不准的地方和如何改进的方向。
仍须努力创新
语音识别虽然已经有比较大的进步,但必须有大的创新才可能有大的突破。主要包括以下几个方面:
1.提高系统鲁棒性和自适应能力,包括语音特征提取、声学模型、语言模型等诸多方面的鲁棒性和自适应等。
语音的特征提取和声学模型对含噪语音、不同信道传输施加给语音的影响、不同发音人及其不同方式等要有鲁棒性和自适应能力;语言模型对各种不同的应用领域要有鲁棒性和自适应能力。
2.在语音识别中使用语音学知识和语言学知识。语音模型的建立仍然是一个基本问题,但对什么样的发音建什么样的模型就不仅是数学建模的问题,还需把语音知识和语言知识结合起来,以高层知识作为建模和识别的引导。这些知识不管在声学模型部分还是在语言模型部分都应该尽可能应用。
3.重视海量语音库和语料库的制作和标注。语音库用以训练语音模型,语料库则用以训练统计语言模型,它们的制作和标注有着举足轻重的地位。一个海量的、科学标注了的语音库和语料库对提高声学模型和语言模型是非常重要的。
4.策略型和多模态方案。在目前的技术还不是特别成熟的前提下,可能需要综合利用各种已有技术来提高系统的整体性能。比如充分利用各种可以利用的特征、集成各种识别性能互补的若干识别器、结合语音识别和手写体文字识别,为用户提供各种不同应用的方案。这些都是有益的解决方案。
5.窄带应用和口语对话应用。语音听写机之所以不能很好推广,也许是因为目前有不少出色的汉字输入方法,如全拼、双拼、五笔等。但是有些场合,如通过带宽很窄的电话线对远程的数据库进行信息检索和查询(如天气预报、旅游信息、股市行情、航班信息等)时,语音识别就会发挥很大的作用,从而会有很大的应用前景。这是因为,语音是非常自然的方式,而且由于电话上只有数字键,相对于用数字键进行逐级的需求确认来说,语音识别更具有竞争力。
在这种应用中,需要解决的技术难点包括:(一)由于电话信道带宽窄(只有3.4khz),语音信号的信息损失较大,电话机和信道质量差异大,背景噪音和信道噪音种类繁多,因此必须有性能优异的语音增强、特征提取、语音识别与理解等算法。(二)由于说话人的在查询时使用的都是自然语言,因此必须研究口语现象。(三)必须研究语言理解技术。听写机只能解决语音到文本的转换,却不知其意;但口语对话系统必须有语言理解部分才能知道用户的查询需求,并有针对性地提供相应的信息。
6.制定软件开发工具(sdk)。为了推广语音产品,制定方便中间开发人员使用sdk也非常重要。一些知名公司无不在此倾注力量,以期制定工业标准。如ibm的ibm
sdk、微软的microsoft sapi、dragon公司的dragon sdk、以及l&h公司的spark等都是用于开发语音产品的软件开发工具。这也是国内研发机构需要学习和注意的地方。
得意音通公司供稿 原文《中国计算机报》,第91期,1999年12月6日
相关链接: