|
中文自然语言处理技术的应用
2003/11/25
第一部分 得意音通公司出色的中文自然语言理解技术
一、得意音通公司出色的中文自然语言理解技术
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。NLU是自然语言理解(Natural
Language Understanding)的缩写。
(1) 相对于规范语言,对自然语言的理解具有更大的难度。
·这是因为自然语言包含大量的口语语言现象,诸如:省略、指代、更正、重复、强调、倒序等等。
·涉及到语音的口语对话系统将还包括噪音、含混不清、口头语、吃音、音变等等口语语音现象。
(2) 相对于基于关键词的技术,语言理解技术的优势是:
·直接。在信息查询时,用户可以不必进行多级菜单的选取而直奔主题。
·灵活。用户查询不必严格按照某些"关键词"进行询问,只要用户的叙述在"语义"上与要查询的一致。
用自然语言与计算机进行通信,这是人们长期以来所追求的。因为它既有明显的实际意义,同时也有重要的理论意义:人们可以用自己最习惯的语言来使用计算机,而无需再花大量的时间和精力去学习不很自然和习惯的各种计算机语言;人们也可通过它进一步了解人类的语言能力和智能的机制。
一个中文文本从形式上看是由汉字(包括标点符号等)组成的一个字符串。由字可组成词,由词可组成词组,由词组可组成句子,进而由一些句子组成段、节、章、篇。无论在上述的各种层次:字(符)、词、词组、句子、段,……还是在下一层次向上一层次转变中都存在着歧义和多义现象,即形式上一样的一段字符串,在不同的场景或不同的语境下,可以理解成不同的词串、词组串等,并有不同的意义。一般情况下,它们中的大多数都是可以根据相应的语境和场景的规定而得到解决的。也就是说,从总体上说,并不存在歧义。这也就是我们平时并不感到自然语言歧义,和能用自然语言进行正确交流的原因。但是一方面,我们也看到,为了消解歧义,是需要极其大量的知识和进行推理的。如何将这些知识较完整地加以收集和整理出来;又如何找到合适的形式,将它们存入计算机系统中去;以及如何有效地利用它们来消除歧义,都是工作量极大且十分困难的工作。
从目前的理论和技术现状看,通用的、高质量的自然语言处理系统,仍然是较长期的努力目标,但是针对一定应用,具有相当自然语言处理能力的实用系统已经出现,有些已商品化,甚至开始产业化。典型的例子有:种数据库和专家系统的自然语言接口、各种机器翻译系统、全文信息检索系统、自动文摘系统等。
在中国,语音和语言处理技术的研发略晚于国外。清华大学语音技术中心1979年创立(原名语音实验室),现已有24年的历史。在以清华大学语音技术中心为代表的顶尖的学术机构的带动下,中国的语音和语言处理技术得到很大发展。
"得意"语义分析器技术是特定领域的汉语自然语言理解的分析器。该技术可以为网络信息服务带来革命性的理念和崭新而实用的应用。
·可在互联网络上用于理解用户的问题,并根据理解结果为用户提供必要的服务;
·也可在无线互联网络或电话网络上用于与用户进行语音对话(把d-Ear Word-Spotter和d-Ear Parser结合起来)。
"得意"语义分析器技术可以用在诸如电话、手机、无线通讯等没有键盘可以输入文本的地方,进行智能查询、信息获取等。根据具体的应用领域,如航班查询和定票、导游、天气查询、股票查询和交易等,进行定制。
(1) 基于文本的对话。系统的输入和输出都是文本而不是语音。可以用在诸如Internet等上面进行智能查询、信息获取等。
(2) 基于语音的对话。系统的输入和输出都是自然语音。可以用在诸如电话、手机、无线通讯等没有键盘可以输入文本的地方,进行智能查询、信息获取等。

"得意"语义分析器技术--d-Ear Parser Technologies
技术点:
(1) 上下文相关理解:系统在理解当前语句时可以联想用户以前所说的话,进行综合分析,因此即使有时用户所说的话有一定的省略,系统照样可以理解;
(2) 话题可以自由变换:目前有一些系统,对话往往只能局限于某一个话题,一旦用户变换话题,系统将无所适从;我们的系统允许用户在多个话题之间不断转换,系统照样可以记住以前的谈话内容,比如用户在问航班起飞时间时,突然问目的地与本地的时差,然后再确认要先前询问的航班,在我们的系统中很容易解决;
(3) 混合主导:现有系统常常是系统只能等用户发问,如果用户根本不知道问什么,那么系统将一直待机等待;而我们的系统对其进行了改进,如果用户询问的信息足够,那么系统直接回答问题,而如果用户询问的信息不全或者用户迟疑太久,那么系统则主动询问来获取足够的信息。
二、得意音通公司的技术与同类技术相比较的优势
1、拥有国际领先的开发工具、开发周期短
经过检索所有专利技术,查询了国内外学术论文,并搜索了相关领域的公司,证明了我们开发的口语对话系统SDK(软件开发工具)是中文语言理解方面国际上第一个面向领域开发的工具。利用该开发工具,可以缩短开发周期。以我们成功开发的在绿色产品方面的短信服务为例,我们系统的实际开发周期为1-2周。
2、功能完备、实用
我们的系统支持多话题、话题可转移、上下文相关分析(包括省略分析)、人机混合主导等。以人机混合主导为例,已有的许多系统都是以机器为主导,在这样的系统中,不管用户如何问,系统总会转回到由机器主导发问,由用户回答;而混合主导则是完全的自然对话,用户可以转换话题后在回到原来的话题(像人一样);用户可以"答非机问"(多回答或少回答);……而系统都可以根据实际情况提取语义信息。
3、支持口语对话
我们的系统支持的是口语对话。口语对话系统和自然语言理解系统之间是有不同的。口语中,人们的语言很随意,可以省略、更正、倒叙等等,这些口语现象是传统的单单基于词法分析的理解系统所难以解决的,而我们的基于关键语义的技术却可以很好地解决。我们在传统的规则之外提出了额外的四类规则(跳跃型、长程型、交叉型、无序型)就是为解决口语现象而设的。
4、应答技术出色
我们的应答技术比较好,能够根据对语义的真正理解,采用先进的自然语言生成技术,产生自然的应答语句。一个口语对话系统包括的主要部分有:语义分析器、对话管理器、应答生成器等。我们在这几个方面都做得很好。
5、系统维护方便
我们系统的维护比较方便。一般地讲,通过修改配置文件就可以达到对系统进行升级的目的。
6、技术实力和支持后盾强大
更为重要的是,得意公司拥有高素质的技术开发和专业管理人才队伍和坚实的技术后盾:
(1) 语言理解技术的研发人员背景非常好,有的毕业于清华大学智能技术与系统国家重点实验室(是全国36家信息类国家重点实验室唯一的全部3次评比中均为A的重点实验室,语言理解方面的权威、微软亚洲研究院的黄昌宁主任研究员,以及微软亚洲研究院的周明研究员,均毕业于此实验室);有的毕业于美国南加州大学计算机系(其语言理解技术在国际上是领先的)。
(2) 得意公司与清华大学智能技术与系统国家重点实验室建有"清华-得意语音技术联合实验室",结成了牢固的"产学研"联盟,是我们坚实的技术后盾。
第二部分 自然语言理解技术的应用领域
自然语言理解技术应用空间广阔,可以广泛应用在机器翻译、电话翻译、人机对话、智能检索、自动文摘等方面 ,较成熟的应用领域有:客户服务领域、知识管理领域、智能软件帮助领域、企业管理领域、网上营销领域等多个领域。
一、在客户服务领域中的应用
1、基于WEB的智能客户服务系统
采用语言理解技术系统的智能客户服务系统是企业基于知识库基础之上的,企业的客户服务知识库一旦建成后,企业客户不但能通过知识库得到精确的回答,而且所有的回答是一致的,使客户365天24小时得到高品质服务,能提升客户的满意度,增加客户忠诚度。而传统的客户服务是以人力为基础的,因此,客户服务的时间比较长,而且咨询不同的客户服务人员可能得到不同的答案。采用自然语言咨询系统能大幅度降低成本,而传统客户服务模式,包括目前比较流行的Call
Center,成本较高,在美国,采用网络服务每位客户的成本会从传统电话方式的30~46美金降至1~3美金,而且由于是无人值守的客户服务,可以大幅度减少人员成本。1999年,全球通过电话寻求服务的数量首次减少,2002年,客户通过网站寻求服务的比例剧增840%,通过网络查询信息和寻求服务已成必然趋势。目前,网上客户服务在全球已经开始被重视并采用,在E*Trade、Dell、Microsoft等著名企业获得成功应用。未来网站经营的成功重点不在提供信息,也不在于每笔交易,而在于是否能够掌握客户,把客户的需要变成自己的需求,把每一位消费者当作项目客户来经营。因此,如何吸引消费者持续消费,"服务"将是最重要的决胜因素。
普通应用:普通的互联网客户服务系统必须有真人在线维护,或直接转入呼叫中心。在呼叫中心还不是很普遍的情况下使网上的客户服务具有了很大的局限性,大大限制了互联网客户服务的发展。
加入智能语言理解技术:基于WEB界面的跨平台应用系统,能为企业提供交互式、个性化、无需真人在线的自动客户咨询服务,是企业网上的呼叫中心。让用户通过口语式的提问轻松解决疑难问题。主要由四个功能模块构成:自然语言问答功能、顾问功能、实时交互功能和后台分析功能。
使用优势:通过实施网上智能客户服务系统,企业不仅可以顺利地实施电子商务中的网上产品交易环节,同时也可以实现基于WEB的24小时不间断的客户服务。对于企业来说,有三个优势:
·节省企业客户服务的费用;
·多重服务方式增加客户满意度稳定市场占有率:
·了解分析客户的需求和对产品的认知程度,更好地根据市场导向调整产品结构从而适应更激烈的市场竞争。
2、用于呼叫中心坐席人员的智能提示系统
普通应用:大型企业的呼叫中心每天要受理大量的咨询电话,座席人员的专业素质往往直接决定了客户服务质量。为了使座席人员具备良好的专业素质,企业需要花费大量人力、时间和费用进行培训,即便如此,面对繁杂多样的客户问题,座席人员有时仍不能理解客户意图,导致客户满意度下降。
加入智能语言理解技术:使用呼叫中心智能座席人员提示系统,座席人员在受理客户咨询时只需直接输入客户问题,提示系统就能直接返回客户所需的答案。
优势:能够减少客户咨询时间、增大客户服务量、降低企业呼叫中心成本。
市场预测:客户关系管理是增长势头最猛的软件之一,中国的CRM市场将保持世界水平的增长,增长速率达到50%,据IDC预测,到2005年,整个亚太地区的CRM市场将达到12亿美元。在CRM中,网上客户服务系统一直是很重要的一部分,在CRM的实施中占有很大的比例。
二、在智能软件帮助领域中的应用
智能化的软件帮助系统在微软新推出的Office XP中已有应用,作为XP的重要特征效果显著。随着中文软件产品的日益增多,实用的帮助系统将得到广泛的使用,市场前景十分广阔。
普通应用:传统软件的帮助系统都是应用分类检索功能,对于功能复杂的软件,用户使用起来非常烦琐,从而使大多数的软件帮助系统都不能真正发挥作用。
加入智能语言理解技术:使用智能帮助系统,当软件用户遇到问题使用帮助功能时,应用智能问与答系统,可以直接在文本框输入问题,能够马上查找出相关答案,并提供与查询内容的相关知识。
优势:及时解决用户的问题,提高软件用户满意度,使软件帮助系统真正发挥帮助作用。
市场预测:智能化软件帮助系统可以适用于各种软件,包括应用软件、系统软件、软件开发工具等各类软件。据IDC预测,2002年软件收入达到26亿美元,年增长32%;2003年软件收入将达到36亿美元,年增长37%;2004年软件收入将达到48亿美元,年增长42%;2005年达到67亿美元,年增长47%。
三、在知识管理领域中的应用
知识管理就是企业对其所拥有的知识资源进行管理的过程,而如何识别、获取、开发、分解、储存、传递知识、从而使每个员工在最大限度地贡献出其积累的知识的同时,也能享用他人的知识实现知识共享则是知识管理的目标。
目前,一些国际著名的公司,如GE公司,HP公司、朗讯科技公司、摩托罗拉公司,道尔化学公司,惠普公司,施乐公司,西门子公司等居于行业领先地位的公司,都已开始实施知识管理,建立了一套管理体系,并纷纷在企业中设立了知识主管,利用"知识资源"来获得真正的竞争优势,巩固其领袖地位。据美国爱迪西公司报道,1997年知识管理市场的规模约9亿美元,(不包括软件),2000年估计增加至19亿美元;另有机构指出,2002年知识管理市场会达到50亿美元,有关软件市场也将从1998年的2.8亿美元增加到16亿美元,甚至更多。因此,知识管理将成为ERP的一个新的管理内容和发展方向,而如何管理和利用好企业的知识资源,实现有效的知识链管理来为企业创造更多的财富也将是下一世纪企业管理的新课题和重大的任务。
现行普通应用:一方面是众多企业花费不菲建造庞大的知识管理系统,以期望通过员工的使用提高效率和效益;另一方面,面对企业庞大的知识库,很多企业员工都因查找相关资料烦琐而不愿意使用。
加入智能技术:智能知识管理系统能够整合公司企业内部知识库,各部门员工只需通过简洁、直观的界面直接输入想问的问题和想了解的知识,就可以根据自身的权限得到所需的一切工作和学习信息,只要提出你的问题,就会得到答案,就这么简单。
优势:协助企业进行员工培训和员工自我学习,进一步提高员工的工作效率和工作积极性。降低企业培训员工的费用。
市场预测:据IDC报道,1998年的知识管理的软件市场约为2.8亿美元,到2002年增加到16亿美元,智能化知识管理系统的应用将越来越广泛,市场潜力巨大。
四、在企业管理软件领域中的应用
企业管理软件市场的上升表现在大企业管理信息化呼声越来越高,集中式管理软件与企业分销管理成为热点。网络经济条件下管理软件在产品及服务等方面的发展趋势主要在以下几点:为了支持无所不在的交易与联系,管理软件全部运行在Internet环境下;随着
ASP的发展,管理软件的应用空间将前所未有地扩大;就管理软件的服务方式来看,管理软件供应商将从提供产品转换为给客户提供一个全面的应用平台,服务的比重将越来越大;管理软件产品全球化和本土化趋势愈加明显,这就为智能语言理解技术的应用创造了广阔的空间。在企业管理软件中,可以用在智能查询、电子邮件自动回复、自动文摘等方面,大大提高企业管理软件的实际使用效率。
市场预测:据CCID预测,2001年中国管理软件市场销售额达到69.8亿元人民币,同比增长18.9%。
五、在网上营销领域中的应用
网上营销将成为未来市场营销的一个重要方式。而且,在市场营销中将占有越来越重要的地位,为了使网上营销能够受到更好的效果,智能企业形象代表的产品,可以广泛地用于各种网上营销活动中。
智能企业形象代表是由智能专家机器人演变而来,应用智能语言理解技术为用户提供的在线专家咨询系统,能够实现24小时不间断的网上专业信息咨询。用户只要把专业知识传授给企业的虚拟代表,就可以使这位虚拟代表能够识别来访者的意图,并通过与来访者之间在线的交流把与企业相关的各种知识传达给用户。当虚拟代表遇到自己无法解决的问题时,会把问题转交后台。这些都为网上营销领域中的应用开辟了更广阔的空间。
第三部分 得意音通公司成功的应用系统
一、清华大学校园导游系统
我们专门为清华大学开发了"清华大学校园导游系统EasyNav",基于清华大学电子地图,应用中文智能自然语言理解技术,为参观和访问清华大学的朋友提供多功能的信息查询。用户可在查询栏中输入所关心的内容,就能很容易地查询到清华大学内包括位置、建筑、景点、路线、距离、走路或者骑车所需时间等等不同的信息,简单、直观而实用。江泽民主席在2000年春节视察中关村科技开发区时,语音技术中心有两个演示系统被选中做演示,EasyNav
V. 1.0为其一,受到好评。在清华大学90周年校庆之际,进一步完善了的EasyNav V. 2.0是唯一一个在清华大学接待中心展示的系统。
以下是有关系统的实际应用演示:
1、 输入问题:从西门到南门怎么走
系统回答:先向东边走大约523米到清华超市,再向南边走大约256米,再向东边走518米到能科楼,再向南边走353米,南门就到了

2、输入问题:到东门呢?
系统回答:(系统根据上下文相关,自动认为用户也是问"从西门到东门怎么走")先向东边走大约523米到清华超市,再向东北走大约228米到清华二校门,……,东门就到了

3、输入问题:离我最近的校门骑车要多久
系统回答:(系统根据电子地图判断最近的校门是清华北门,骑车需要时间短)大约5分钟

4、输入问题:教室呢?
系统回答:(系统根据上下文相关,认为用户提出的问题是"离我最近的教室骑车要多久")大约3分钟

二、航班查询订票系统
航班查询订票系统EasyFlight,该系统可以对航线、航班、票价、票务等信息进行查询,并可与用户进行时间、地点、机型等条件的交互"商谈",以便最终达成订票的目的。

三、网络语言智能理解系统
得意公司与美国美国自然科学基金会(NSF)、美国高级国防研究规划局(DARPA)和美国国防部(DoD)以及国际最大的软件开发商合作,开发了应用于
".Net Speech"上的网络语言智能理解系统Written Language Understanding systems,能在WEB及无线网络提供方便、实用的智能查询,提供给内容服务商(Content
Providers)开展更好的信息服务。国内上网人数到2004年预计将增长到1亿,上网用户对于信息的质量和ICP所提供的服务要求将更高。通过高质量的信息服务,向用户收费,从而实现盈利,是专业服务商和网络信息服务商的必由之路。此系统可用于固定电话和无线电话用户以自然口语获得服务,例如机票预定航空信息查询,天气预报查询,新闻、证券信息查询等等多种多样的应用。与国内主要的电信运营商、ISP、IDC等紧密合作,为行业用户、消费者提供性能优良、价格低廉的信息服务,参与信息服务费分成,获得长期的、增长迅速、数量巨大的收入。
四、"得意"中文智能短信对话服务系统
得意公司具有完全自主知识产权的d-Ear Parser("得意"语义分析器),是特定领域的汉语自然语言理解的分析器,可在互联网络或者移动网络上用于理解用户的问题,并根据理解结果为用户提供必要的服务。此技术应用于短信增值业务,将可以带来革命性的服务理念,通过基于中文语言理解技术的智能短信对话系统,能够为用户提供随时可用、方便和便宜的信息服务。
用户能以自然语言的形式定制和享受各类相关的信息服务,而无需记忆繁杂的代码,系统能迅速理解用户的意思,更能引导用户准确地查询出有关的情况。
引入"得意"中文智能自然语言理解技术,移动互联增值服务将会更易用、更实用。移动互联增值业务平台只需应用"得意"语义分析器与知识库或者相关的数据系统相联接,原来无法开展的复杂的智能互动查询、智能游戏、个性化的新闻定制、网络搜索、电子商务等业务都能快捷、简单地开通,用户无需更换手机和SIM卡,也不必选择多级菜单、记忆复杂的命令格式和代码,就能轻松、简便地享受前所未有的个性化的服务,能最大程度地发挥无线数据通信的优秀,给用户以最大的方便、无限的自由。
得意音通公司供稿 CTI论坛编辑
·
·
·
|