中文语音语言处理技术与中国无线互联
清华大学语音技术中心主任 北京得意音通技术有限责任公司总裁
郑方博士 2003/03/14
郑方博士是汉语语音识别与语言理解方面国际知名的学术带头人之一,他是清华大学计算机科学与技术系副教授,智能技术与系统国家重点实验室语音技术中心主任。他分别于1990年、1992年和1997年获得清华大学计算机应用专业学士学位(优良毕业生)、硕士学位(北京市计算机学会优秀论文)和博士学位(答辩委员会界定优秀论文)。他从1988年开始从事语音识别与理解等方面研究,他负责或作为骨干人员参与研发过20余项国家重点项目和国际合作项目,并获得教育部(委)、科技部(委)、北京市奖励和其他奖励10余次。他在国内外知名刊物和学术会议上发表了110多篇学术论文,多篇获优秀论文奖。
他服务于一些国际著名会议、刊物和组织,包括:中国计算机学会人工智能与模式识别专业委员会委员、中文信息学报编委、2000年ISCSLP程序委员会联席主席、2000年ICSLP技术委员会委员、2000年东方COCOSDA国际会议的组织委员会委员、2001年全国人机语音通讯学术会议(NCMMSC)程序委员会委员、2002年ISCA的PMLA(发音变异建模和词典自适应)国际会议科学委员会委员、2002年SNLP-O-COCOSDA联合国际会议的组织委员会委员和国际顾问、2003年东方COCOSDA国际会议总主席、东方COCOSDA核心成员、IEEE会员、ISCA会员等。他是IEEE
Trans. on SAP、J. of Computer Science & Technology、中国计算机学报、声学学报、中文信息学报、计算机研究与发展、Association
of Computational Linguistics (ACL)等的审稿人,他还应邀审议国家自然科学基金项目。
联系方式:fzheng@d-Ear.com fzheng@sp.cs.tsinghua.edu.cn
无论在国内还是在国际,无线互联都是技术和市场的热点,中国的无线互联产业也有了突飞猛进的发展。分析现在,展望未来,可以预见中文语音和语言处理技术在中国的无线互联产业中将起到非常大的作用,无线互联的发展反过来也将带动语音和语言处理技术的进一步发展。
中文语音和语言处理技术
自从1960年代IBM开始从事语音识别的研究以来,经过人类数十年的艰苦努力,语音和语言处理技术有了很大的发展。尤其是在1990年代中,IBM的Via
Voice在全球发布以后,无论是个人用户还是产业界,无不对此刮目相看:语音的世纪来临了。美国众多著名大学,包括MIT、CMU、JHU等的教授们,还有包括Microsoft、IBM、Intel等业界的佼佼者,都众口一词地认为,"二十一世纪是语音的世纪",并为此从学术研究和应用开拓各方面积蓄力量,希望在这幅美丽的图画中占据一席之地。
在中国,语音和语言处理技术的研发略晚于国外。中国科学院声学研究所的俞铁城教授应该说是中国最早涉足这一领域的人之一,他于1977年在《物理学报》发表了全国第一篇关于语音识别的论文。清华大学语音技术中心紧随其后,语音界老前辈方棣棠教授、吴文虎教授于1979年创立语音技术中心(原名语音实验室),现已有24年的历史。随后,全国各地从事这方面研究的机构越来越多,比较著名的有清华大学电子工程系、中国科学院自动化研究所、中国科技大学、中国社会科学院语言研究所(在语音学研究方面,吴宗济先生的起步更早)、北京大学、哈尔滨工业大学等等。在这些顶尖的学术机构的带动下,中国的语音和语言处理技术得到很大发展,并逐步在国际上引起注意。
到上个世纪末这个世纪初,一些拥有自主知识产权的公司也相继成立,包括得意音通、天朗语音、中科模式;科大讯飞、北京捷通华声、炎黄新星等等。虽然国外许多公司,如Microsoft、IBM、Nuance、InfoTalk等,也都在盯着中国这个巨大的市场,然而国内公司拥有独特的优势:低成本、高性价比、可定制化程度高等,也取得了很好的成绩,从而有足够的条件与国外的公司进行多方面的竞争以及合作。
语音和语言处理涉及的技术包括很多方面。简单地讲有:(1)语音识别(ASR):把声音变成文字(相当于耳朵的功能);(2)语言理解(NLU):把文字变成语义(相当于大脑之语言区的功能);(3)语音合成(TTS):把文字变成声音(相当于嘴巴的功能);(4)声纹识别(VPR):通过声音对人的身份进行辨认和/或确认(耳朵的功能);……
中国的学术界和产业界在这些领域都有很大的成绩。清华大学智能技术和系统国家重点实验室连续三次在全国国家重点实验室评比中被评为A类(信息类国家重点实验室的唯一),其属下的清华大学语音技术中心,在以上四项技术有着20多年的研发积累;得意音通公司和清华大学语音技术中心有着密切合作关系,并致力于建立无缝"产学研"的通道,经过努力,更是实现了以上四种技术的应用编程接口(API)和软件开发工具(SDK)。
然而,"语音的世纪"除了蕴含无限的商机以外,也表明它们存在发展的空间。概括地讲,有这样一些问题急需解决:
第一个是语音识别的方言和口音问题。中文有八大方言区,现在很多语音识别系统,对标准普通话的识别性能很好,但是一旦有方言或者口音,性能就会马上下降。但是怎么攻克这个问题呢?这在国际上就是一个Open
Issue。比如美国的自然科学基金(NSF)、国防高级研究规划局(DARPA)和国防部(DoD)每年在美国的Johns Hopkins University
(JHU)召开一次研讨会。该研讨会面向全世界,征集具有前瞻性的研究课题,全球较为知名的研究机构或者企业都可以向它提交一些提案,希望和来自全球的专家一起共同研究以找到解决问题的方法。今年我提了一个提案就是关于方言和口音的问题,它在全球十几家提案中胜出,并成为最终被选定的三四家之一,届时将会有来自得意音通、清华大学、JHU、Microsoft、IBM、AT&T、科罗拉多大学、香港大学等的学者和业界人士一道去探讨这一问题。这个问题之所有能够胜出,说明它的重要性,也说明人们对它的关注,必须下力气解决好这个问题。
第二个是信道问题。我们知道在无线互联应用中,涉及到的信道种类可能会很多,比如固定电话、手机、IP、网络、车载系统等等,各种各样的信道都有不同的特性。语音识别、声纹识别和语音理解怎么去适应不同信道的差异呢?这是一个不得不面对的问题。我们既需要解决多信道的问题,也要解决跨信道的问题(在一个信道上学习,在另一个信道上识别)。
第三个问题,就是背景噪音。语音识别、声纹识别、语音理解等系统往往在有背景噪音时就不能正常工作了,这是因为背景噪音破坏了原始语音的频谱,或者说把原始语音部分或全部掩盖在噪音当中,因而无法准确地分离出来的缘故。这个时候就得解决好背景噪音的问题,这也是我们在技术上面临的挑战之一。
第四个是自然语音理解领域,我们也有很多的问题需要解决。我国很多学术单位在语言理解这方面都有很好的成就,比如北大的俞士汶教授、清华的黄昌宁教授(现在在微软研究院)、东北大学的姚天顺教授、北京语言大学的宋柔教授等等。和语音识别面临的复杂的随意发音现象类似,当我们面对的不是语法比较规范、语序比较正常等的书写文本的时候,语义的分析和理解就很困难了。我们必须有很好的理论和技术去解决口语语言现象,比如口语中的重复、改正、强调、倒叙、省略、拖音、韵律等等。
第五个是语音合成。应该说现在的语音合成技术做得相当不错,把一个文本给它以后,它能够把声音发出来,而且你感觉到还比较好。但是其中存在着一个很大的问题,就是它虽然对每一个音都发得很标准,但是对一句话,你不敢非常有把握地说它做得非常自然。因为就一句话而言,牵涉到很多的问题:如韵律,不同的韵律有不同的意思;比如把"你好(问候)"说成"你好呀(讥讽)",就变了另外一个意思。所以在语音合成当中,怎样能够很好地把感情色彩、情绪等正确地表达出来,也需要我们进一步研究。这里面有一个问题首先要解决,就是必须先对这句话(甚至整个段落)进行理解,理解之后才能够知道如何把韵律加进去,如何表达感情和情绪等。
然而,和人类进步过程中其他任何一种技术的发展历程一样,语音和语言处理技术在任何一个不同的成熟阶段都有一个不同的应用形式和不同的市场定位。在这种技术到市场再到技术的螺旋式上升的过程中,技术越来越成熟,市场也越来越成熟,从而让技术更好地为人类服务。
中国的无线互联业务及其新的增长点
有人说,信息时代人和人之间的关系会越来越淡化,人和人的交往渐渐会被"人机"交往所取代。这虽然有点偏激却不无道理,现实在印证着这一点。那些在网上有过亲密接触的年轻一代,那些遍布在城市各个角落的"大哥大"侃爷,那些在计算机面前时不时大笑不已的QQ族,那些低着头差点撞到电线杆的手指操舞蹈者(打短信)……等等,都是在以自身的实际行动实践、支持这一理论。
在这种新的"人--机(网)--人"交往模式中,无线互联模式逐步成型并形成规模。无线互联产业中,用户、网络运营商、设备和终端制造商、增值应用服务商、内容提供商相互关联、共生共存,构成完整的产业链。产业链良性循环是无线互联产业成功的关键,圆满解决用户、电信运营商、内容和服务提供商之间的利益关系是形成无线互联事业良性循环的核心。产业价值链的基础是为最终用户提供更加便利和完善的服务。中国无线互联产业发展最迫切、最重要也是终极的目标,就是要让用户享受到最好的应用和服务。
目前在无线互联方面更多的是低层次的、点对点的。无论是用手机打电话,还是收发短信,更多的只是用户之间通过网络运营商进行交互。那么是否可能把这种应用的层次再提高一些呢?
我们可以先看一下无线互联产业链中用户以外的其他环节。网络运营商提供基本的数据通道,设备和终端制造商提供用户使用的终端设备,而内容提供商收集整理大量的、用户感兴趣的信息,由增值应用服务商集成,可以为用户提供非常丰富的多领域信息服务。
我们看到,为了更好地服务用户,中国移动、中国联通相继推出"移动梦网"和"联通在线"角逐无线互联市场。这两家网络运营商在无线互联生存模式的探索中创造了各方有利的盈利模式,吸引了产业链各环节的积极参与。但是直到2002年初,他们在平台的技术标准上互不相让,致使两网之间的互联互通问题迟迟无法解决,各自都失去了数亿元的业务量。经过旷日持久的对峙,在主管部门的敦促和调和下,特别是在可观的市场利益和强大的用户压力作用下,中国移动和中国联通终于达成网间短消息互通协议。
除此之外,这两家无线网络运营商忽视了处于这条产业链的核心地位所应承担的诸多责任,他们还没有起到像日本NTT DoCoMo那样的核心作用。NTT
DoCoMo虽然从移动互联市场的收入分成中只抽取很少的份额,但它作为整个链条的核心,承担了大量的投入和衔接工作,扮演了产业链主宰者的角色,而中国移动和中国联通在制定移动互联产业链的游戏规则、技术标准方面虽然也做出了不少努力,但与NTT
DoCoMo相比还存在着一些欠缺。
NTT DoCoMo具备强大的对整个网络的管理能力。运营商不只是单纯地提供通信平台,还要统揽全局,众多的服务商和软硬件提供商共生于一条产业链上,良莠不齐,需要运营商进行判别和管理。其次,DoCoMo自身也通过合作等方式与银行、音乐公司等联合开展应用服务。DoCoMo与几百家银行合作,用户可以通过网上银行转账、炒股;DoCoMo与相关机构合作,提供地图导航,如餐馆、咖啡馆、酒吧、泊车等实时信息,深受远足的旅客所喜爱。
国外的经验给我们提供了很好的借鉴。随着手机用户的日益增长,运营商的利益空间将越来越大。虽然商机无限,运营商还是要在整个链条上给自己准确定位,也只有承担起更多的责任,创造出"多赢"的局面,才能最大程度上实现自身的利益。
我们呼吁中国的网络运营商能够提供一个开放的平台,这是实现多赢局面的根本。在一种开放的心态和平台下,在这个产业链上任何一个环节做好了,对其他环节尤其是网络运营商都是一个极大的促进,使其能够得到更好的发展和巩固。一个健康、良性的无线互联产业链形成时,也就是中国的无线互联产业"万紫千红春满园"之际,可以把无线互联应用提高到一个更高的层次,创造更大的价值。
设备和终端制造商不断推出招人喜爱、功能丰富但小巧玲珑的无线互联设备,也让人们越来越认识到,在那些设备上,我们没有键盘,或者键盘很小(只有数字键盘),或者只有软键盘(用触摸屏),文字的输入成为一个很大的障碍。用户们呼唤自然语言,因为它是人机交互的最高境界,是人机交互最自然的方式。尤其是对中文,常见的多音字、同音字现象,制约着中文短信的输入速度。得意音通公司提供了很好的解决方案,有基于拼音的整句输入法、基于数字的整句输入法、基于笔划的整句输入法,以及基于语音的输入法,等等。这些技术既可以由增值服务提供商(如Sina等)集成到服务器中以间接服务用户,也可以由设备和终端制造商集成到新型手机(如Nokia
9210、Dopoda等)中去直接服务用户。
另一方面,内容提供商必须努力才能把用户的点对点模式拓展到整个产业链。现今的无线互联,尚缺乏很好的内容提供商,也没有用到一些很好的解决方案让用户享受那些内容。得意音通的语言理解技术可以为此提供技术保障。人们在享受点对点模式带来的好处的同时,更希望能在任何时间、在任何场所、在任何设备享受到无线互联服务带来的好处。怎么去享受?
举一个例子说,旅游。一个人到一个新的城市,如北京,他想了解有关旅游的信息。但初来乍到,不知道在哪个地方去问。但他有手机,他就可以用手机打到一个特服号码。他可以直接用自然语言去问一个拥有海量信息的服务器:北京有哪些好玩的地方,哪些地方能够提供很好的餐饮服务,哪些地方可以购物,那些地方可以享受文化娱乐等等。用户可以通过自然语言的方式享受周到的服务。在这样的例子中,需要用到很多技术,如语音识别、语言理解和语音合成;也需要多方面的参与,如网络运营商、内容提供商、增值服务提供商等。而如果要询问交谈状况,比如我想问从清华大学到上地怎么走,那么就涉及到多家内容提供商。首先必须有一个北京市的电子地图,它给出北京市的道路、街道、建筑物、单位等静态信息;其次还必须有交通部门的动态信息,它瞬时提供各个道路的交通拥挤情况。有了这两个内容提供商的内容服务,增值服务提供商就可以集成语音理解技术和数据计算技术,动态给出最佳的行车路线。
很显然,在无线互联产业链中,任何一环的发展和提升,都给用户带来极大的方便,也给自己和其他环节带来利润增长点。在产业链中,"单赢"是不能长久的;"多赢"才可以维护长期的、稳定的、良性的局面。
这种"多赢",有时是纵向贯串整个产业链,有时则跨平台横向联合。Microsoft以及其他一些著名的国际大公司共同制定的SALT(Speech
Application Language Tag)规范;Microsoft的.NET Speech以及其他公司的成熟的语音和语言处理技术等;……都为这种跨平台的无线互联应用,提供了技术保证。人们有理由相信,在不远的将来,任何人、在任何时刻、在任何场所、在任何设备上,都可以通过自然语言方便浏览网页、互相传递信息,实现无线互联的目标。
无线互联在数字奥运中的商机
北京申奥成功,不但给中国人争了光,而且给中国带来了"奥运经济"的大好契机;而无线互联产业也将面临很大的商机。
北京奥申委在申奥时庄严承诺,"在2008北京奥运,Any Time, Any Where, Any One, Any Device都能方便地获取奥运的信息,分享奥运的喜悦。"《北京奥运行动规划》中提出"到2008年,基本实现任何人、在任何时间、任何场所都能够安全、方便、快捷、高效地获取可支付得起的、丰富的、无语言障碍的、个性化的信息服务。"
"数字奥运"将成为2008年北京奥运会的一大特色。届时,来自全世界各个国家和地区的、说各种语言的运动员、教练员和体育官员,各自有各种不同的信息咨询需求,我们需要提供各种不同的信息。比如有的想及时了解赛事的信息,有的可能想了解比赛场馆的信息,有的想了解从住处到场馆的交通路线信息,有的则想了解其他与竞赛相关的信息。然而,除此之外,在运动员比赛完之后,运动员、教练员或体育官员,可能想在北京旅游、观光、购物等等。我们需要提供一个很好的多语言的语音识别系统和智能信息查询系统。
这给我国的语音和语言处理技术的学术界及产业界提供很好的发展机会。我们面临很多问题需要解决,比如多语言识别问题。然而更重要的是混合语言识别问题,这可能比多语言要麻烦一点。因为对多语言识别,你说日语,就提供日语的服务;你说汉语,就提供汉语的服务;你说英语,就提供英语的服务;等等……这就是多语言。在实际情况下往往并不完全是这样,有时是混合语言,比如他在说中文的时候突然夹杂两个英文词或日文词,甚至两三种语言混在一起。
除了多语言和混合语言识别外,还有机器翻译等。在奥运期间,世界上每一个国家都要来参加,语言是很多的,而赛事信息可能是用中文或英文存储和处理的。有一个很好的做法就是有一个翻译系统,让各种语言和中文或英文之间可以互译。
这就给无线互联产业带来很大机遇。围绕体育赛事、北京旅游、北京购物、北京文化、航班查询、飞机订票等等,内容提供商、设备和终端开发商、增值服务提供商等都有很多机会。
短信――中国特色的无线互联业务
我到过十几个国家和地区,我发现在无线互联领域里,短信(Short Message)是一个非常具有中国特色的现象。短信在中国发展很快,仅在今年春节期间短信量就达到七八十亿条,着实给产业界以很大的震动和惊喜。短信甚至成了中国一种特有的文化现象,大家通过短信聊天、对话、拜年、祝福,似乎成了一种新的时尚。
中国的短信市场是一个很大的潜在市场。我觉得会有更大的发展。为什么呢?因为目前的短信只点对点的形式,是中低端形式。正如我刚才说的,现在牵涉到环节只有"用户->运营商->用户"。事实上还可以让整个产业链更好地动起来。
比如把内容服务商加进来,提供高考信息。每年在高考前后,不管考生本人也好,考生家长也好,都非常关心报志愿的情况、高考的情况。能不能通过某种形式把高考的信息、招生的信息搜集起来?这就是内容服务商的工作。做完以后加上语言理解的技术,就可以把这些信息提供给考生及其家长、亲属,做高考志愿的参谋,做高考成绩、录取消息的信鸽。这个产业会是很大的,中国的父母都望子成龙,为此他们不惜花钱;而作为短信这种最方便、最经济的方式,考生和家长将更愿意接受,所谓物美价廉。
无线互联给人类更自由的信息交流手段,扩大了人们的行动空间;语音与语言技术让人类以更自然、更直接的方式进行交流,将创造出全新的思想空间。让我们一起多进行思想交流、碰撞,一起来实现我们的梦想。
得意音通公司供稿 CTI论坛编辑
相关链接:新浪“无线互联”论坛第二期 清华大学计算机应用专业博士郑方聊天实录
相关链接: