首页>>厂商>>交换机/ACD系统平台厂商>>IBM

中文语音识别产品的相关报道汇编

*芝麻开门

--中文语音识别产品步入实用化阶段

99/8/01《电子与信息化》

据介绍,随着科学技术的发展,中文语音识别技术可以应用到4个方面:语音到文字的转换输入系统、人机对话系统、人机控制系统和同声翻译系统。语音到文字转换系统是将人们所说的话逐字逐句地记录下来,它可以用于日常的文字输入工作,还可用于许多特定的场合,如会议记录整理、采访录音整理、电视台的时事字幕制作系统等等;人机对话会系统是指人和计算机在特定的领域中交换信息,以达到查询信息等任务。他可以用于各种信息咨询领域,如查询电力、电信和煤气等各种费用,咨询股票、天气、电话号码、航班车票等各种信息,方便人们通过电话快捷地获取各种信息;人机控制系统是指人们通过语音命令控制计算机,它可用于声音导航、工业控制等多个领域;同声翻译系统能够进行多语种之间的同声翻译,帮助不懂外语的人自由地与外国人交谈。

技术的发展为人们带来了极大的方便。可以预计,进入21世纪,中文语音识别技术不仅会发展成为PC上的标准应用平台或配置,而且会出现在越来越多的嵌入式系统中,用来解决各种形式的输入问题和复杂的操作问题。当自然语言理解技术成熟后,中文语音识别技术将会得到更为广泛的应用,真正成为人们生活的一部分。可以想象,我们站在家门口说"芝麻,开门"的一天将不再遥远。


*文字输入动口不动手

99/10/06《计算机与生活》

随着科技的发展和计算机硬件水平的提升,语音技术已日益广泛地应用于实际之中。其中广泛用的语音应用程序接口(API)使开发者可以将"语音识别器"(SR,Speech Recognition)和"文本语音转换器"(TTS,Text to Speech)加入到应用程序中,从而在以下几个方面得到了应用。

电话中用语言来代替"触键"菜单,用TTS来代替记录的提示,可以阅读姓名,甚至阅读电子邮件;游戏中通过SR和TTS,使人机交互不再只是读屏幕、按键做出反应,从而使娱乐更有趣味;有声的多媒体标题使用户享有欣赏电视般的乐趣;办公室中用语音识别功能来输入一些材料,而不再用键盘输入。

有人说,语音正在代替键盘和鼠标。显然,语音识别不会完全代替键盘和鼠标,正如鼠标、触摸屏没有废除键盘一样,TTS也不会废除文本。因为从计算机诞生之日起,键盘就一直是计算机的标准输入设备。鼠标的发明也未能使其地位动摇,那么随着语音系统的推广,就计算机应用领域而言,键盘的作用也是无可替代的,键盘的功能也是鼠标、笔、扫描仪和语音输入系统所无法包容的。

SR和TTS只是为应用开发者新增了两个用户接口设备。语音识别功能可加入到一系列的用户接口设备中,如键盘、鼠标、控制杆、笔、扫描仪等。同样,文本-语音转换器也可以装入文本、图形、动画和视频和声音中。应用程序一般不会纯粹只用语音与用户进行交流,大部分会根据各自设备的强度来混和并配合使用。目前,一些应用程序已经用了一些用户接口设备来与用户交流。例如游戏需要用控制杆和键盘,用户通过操作控制杆摳嫠邤计算机游戏人物需要移动的方向,而键盘用来输入文本更好;游戏的输出设备也同样运作,应用程序同时用图片、文本和声音来与用户交流,当一架敌机爆炸时,游戏并不显示"Boom"爆炸这个词,而是发出一声爆炸的声音。


 *未来航空新渠道

--介绍IBM语音电子商务平台

1999/10/21 《中国计算机报》

语音识别产品Viavoice是IBM公司研究了30多年的成果。和IBM ViaVoice 98是一个识别人们讲话的软件,不仅能够识别句子,还能够从及句子中找到关键的词汇。而且IBM ViaVoice 98将有上海话、广东话、四川话三个方言版本,能够识别方言。这个产品的句子识别率很高,在90%以上。而对于有限个词汇的识别,基本上可以达到99.9%以上。目前语音系统主要运用的是对于词汇的识别能力。

这个系统可以节省成本,提高适应现代社会生活的效率,属于语音电子商务平台。

首先看它在成本和效率上的节省。一个航空公司只需要一套核心系统以及在每个城市的一个前端工作台即可,24小时的语音自动定票电话,可以节约相当于至少两个工作人员的劳动量。以一个前端系统造价在3万元、使用周期3年计算,则每年的电脑投入费用约1 万元,每年的每个前端系统的维护费用约5000元。采用了这个系统,相当于用 1.5万元解决一个城市定票前端系统的工作问题。相对于人工定票可节省了前台工作人员的开支成本。

在提高航空公司竞争力方面,这个系统的比较优势比成本的节省更多, 仅仅"24时随时可以定票"这个优势就能够吸引不少乘客。另外,对于列车定票系统和其他定购系统,都会有向航空公司的自动语音定票系统一样的效果。要把这些语音自动定票系统提供给用户,不仅需要 IBM 和自己的合作供商提供整套系统,还需要哪些窗口型企业本身的意识的提高。


*未来世界语音相伴

1999/10/25《中国计算机用户》

未来的操作系统会是什么样?这是IT界人士普遍关心的一个问题。目前看来,操作系统更像是一个浏览器,他比DOS、Windows要简单得多。因此,未来操作系统的方向应该是采用更加简单的工作方式。当然除了简单,它还必须高效。

从现有的需求和技术条件来看,语音界面将会是未来操作系统的外壳。现在的技术已经发展到可以采用语音录入文字以及驱动字处理系统,甚至还出现了语音Email。在现实生活中,语音也正在逐步显示其强大的生命力。语音录入的速度和方便程度是其他任何方式所无法比拟的。

目前在语音技术方面处于世界领先地位的IBM公司曾经花了30年左右的时间研究出了整句识别的模式,而现在的ViaVoice就是在IBM沃森语音技术实验室的研究成果上开发的产品。ViaVoice中文版能够100%地识别有限(一般是1000个以下)的汉语词汇,而其对于连续句子的识别率也在93%以上。他采用的是基于统计的上下文相关的分析方法,并结合声音分析来进行识别的,这与人类自身的做法十分相似。应该说,IBM ViaVoice是一个厚积薄发的产品。

当然除了IBM以外,其他很多公司也开始注重对于语音技术的研究,也在开始积累。这个巨大的语音市场会有竞争,也会有合作。相信未来的IT世界,一定会有语音相伴。


*天下皆知音-自动翻译电话

1999/11/01《互联网周刊》

进入信息时代,高科技飞速发展,人类社会的进步日新月异。仅几年光阴,电话通信便以其不可阻挡的浪潮,涌进了寻常百姓家。近一两年,互联网使地球变懶,小成一个地球懘鍜,各国的人民在网上往来,就象村民之间那么随意。但是,由于不同的国度有着不同的语言,成为村里人们思想交流的最大障碍。现在人们对于自动翻译电话的期望显得更为迫切。

自动翻译电话全称自动同声翻译电话, 是指两个说不同语言的人在打电话时,由电脑自动将一种语言翻译成另一种语言,并用声音传给对方,不需通过第三方翻译就可直接对话,中间也不会因翻译而产生迟延,就如同国内打电话一样方便。在信息产业为主流的今天,自动翻译电话的实现,不再是遥远的幻梦。有关专家预测,自动翻译电话在2005年前可实用化,2010年即将进入千家万户。

语音识别技术的进步无疑会推动自动翻译电话的发展。不过语音识别技术对不同的应用,也要求采用相应不同的设计方法。尤其是在把该项技术与机器翻译技术及语音合成技术结合起来进行自动翻译电话开发时,会碰到了一些新困难。目前以电话为基础的语音识别系统只能使用小词库,因为电话麦克风的性能、可能存在的背景噪音以及电话线路的带宽较窄等因素限制了可以识别的词汇量。


*语音商务平台等你"登陆"

1999/11/02《中国经营报》

在现代化的企业和事业机构中,管理者越来越明确地认识到,对信息的把握手段必须是:简单合理、成本低、效率高。现在,一种更便捷、有效的企业办公平台即将为你所用,它就是利用语音识别、语音合成技术构建的基于语音的自动办公平台,这是IBM公司的又一新构想。

一位刚刚使用了完整的语音自动办公解决方案的企业经理的张先生这样描述这个平台给他的业务带来的改变:"今天上午,我要看我们企业最近两个星期的销售表格。我对着麦克风说就行了,计算机马上根据我的指令将表格调到屏幕上。我想跟公司的顾问一起解决销售不利的问题,可以立即组织一个我们两人的电话会议,并且在我们讨论各个问题的时候,要什么资料都可以通过语音指令来传达,计算机马上就可以调出来。这不仅提高了决策的速度,还提高了决策的精度。"

利用语音收发企业内外部信息并自动分类处理是语音商务平台的基本特征。企业内部的通知、表格、信息查询、政策咨询、员工调查等信息都可以在这个平台上进行交流。企业外部的订购、查询、服务、建议、谋求合作等信息也可以通过语音平台方便地获取或发布。


*国内电脑语音识别技术屡获突破

1999/11/17《光明日报》

在计算机王国美国,行业头号霸主IBM率先进行电脑语音识别研究。经过按20多年的努力,先后推出英文、法文、德文等近十种文字的语音识别技术。由于汉语结构复杂,单音节为主,同音字多,方言多,语法亦不规范,直到1997年底,IBM才推出不太成熟的汉语识别技术。这些顶尖高手们深知汉语语音识别技术艰难,自身难以攻克,就以较低的价格,或技术互换的方式向全世界二次开发商、科研机构提供软件内核。

此后的一年多时间里,"让电脑听懂说话"技术获得迅速突破,微软、IBM、摩托罗拉等世界级开发商投入大量人力物力。首创电脑声卡的新加坡创新公司,台湾清华大学和香港中文大学等华语研究开发机构在汉语音技术方面做了大量工作,语音导航、语音识别等技术日臻成熟。IBM公司1998年推出的汉语识别软件ViaVoice 98,可在普通话基础上适应广东、四川、上海等有代表性的方音,只要读5个词、三句话既可建立一个语音模型,并有使用中自学功能。


*IBM道出播种者的思路

1999/11/18《CHINA REFORM NEWS》

早在几年前,汉语音识别技术就有了突破性的发展,苹果、摩托罗拉和中科院声学所都有了试验系统问世。1997年IBM的ViaVoice语音识别系统的中文版问世。按常规,IBM本应不遗余力地在我国市场推广最新的也是我国市场上第一套语音识别软件。但IBM没有这样做,早在其软件的零售版尚未发布之前,IBM就拿着自己的语音识别核心和开发工具,在我国的软件开发商中寻求合作。帮助软件厂商在IBM核心技术之上开发自己的应用产品。

IBM在这里扮演的角色是技术播种者,有这么多支持者,众人拾柴,当然不愁应用方案和产品。"无论是一大步还是一小步,都是牵动世界的脚步。"也许有些夸大,但在中文语音技术市场上,这话倒是不虚。


*数字时代的"芝麻,开门!"

--IBM ViaVoice是什么?

1999/12/05《科技潮》

毫无疑问,人类是很迷信自己声音的。

在信息时代,人类这些儿时的梦想,不仅没有泯灭,反而更加强烈,特别是在信息时代,由于科学技术的发展,过去的梦想正在逐步变成现实。

现代的语音识别产品无疑在扮演着一个"芝麻,开门"的角色。不过,由于现代科技文明的很多术语表达过分专业化,使得很多使用者不知道这种本来满足一个古老愿望的产品到底是什么东西。

其实,IBM的语音识别系统ViaVoice就是一个现代版本的活生生的芝麻开门。

比如用于计算机的自动语音命令驱动,有很多种采用了IBMViaVoice的系统。比如在写作的时候,IBM ViaVoice就起了命令驱动的作用。一个中国的硕士生在作毕业论文的时候,就用了IBM ViaVoice把自己上万字的毕业论文用语音命令和语音朗读的方式录入到计算机里面去了。语音作为最简单的方式,也开始在计算机系统里运用起来了。


*语音识别新天地

2000/1/31《中国计算机用户》

语音识别技术一直是计算机领域研究的重点。IBM ViaVoice Telephony技术是IBM公司的中文语音识别技术在电话通信领域中的延伸和发展,它提供了一个开放式的语音识别引擎和一系列应用工具,使得语音识别功能可以被方便快速地集成到电话系统中。

同时,IBM ViaVoice Telephony 电话语音内核和工具库还为开发人员提供了开发电话语音识别应用程序的工具。其中,前者为应用程序提供了运行平台;后者则为开发和测试应用程序提供了一套实用程序。该工具库对TCL/TK脚本语言进行了扩展,简化了应用程序的开发和定制过程,并提供了与硬件无关的语音识别和语音合成引擎C/C++接口,使得开发人员可以开发面向对象的解决方案。工具库中还包括了两个示例程序,可以帮助用户理解如何将语音识别集成到电话语音应用程序中。另外,软件中还附带了几个实用程序,来协助开发人员开发、测试和管理电话语音识别应用程序。

普通话ViaVoice Telephony技术具有广泛的应用前景,任何VRU应用都可以同语音识别功能相结合,提供人性化的交互界面。不久前,我们杭州三汇数字信息技术有限公司和IBM公司就关于IBM ViaVoice Telephony的应用签订了合作协议,从而使得我公司成为率先应用这一新技术的国内语音卡生产厂商及ISV。在与ViaVoice Telephony技术结合之后,我公司开发生产的语音卡可以彻底解决以前按键无法解决的地名、人名、股票名称等汉字词语输入问题,且具备高识别率、无限词汇量、连续发音、与说话人无关等特点。

目前,我公司已成功地满足了股票语音查询系统、机器人接线员、铁路自动票务中心、民航语音呼叫中心、邮政184自动查询系统等项目。其中,江苏省谏壁电厂经过严格测试,已决定使用机器人总机接线员,任何人都可以通过有线或无线电话用自然语言直接叫机器人接线员接通谋人的手机、办公室或家庭电话。

相信,随着ViaVoice Telephony技术在通讯、金融、旅游以及医疗等领域的进一步推广和应用,人们的生活必将更加多姿多彩。


*盲人进入互联网精彩世界

2000/2/19《北京晚报》

昨天,盲人韩春玲经过20分中学习操作,基本掌握IBM网页朗读软件。中文语言合成技术(TTS)使盲人能听到网页的内容。承受着视觉障碍或失明痛苦的人,开始进入互联网世界。


*I B M 展示嵌入版语音识别软件

2000/3/20《计算机世界》

IBM日前宣布了嵌入版ViaVoice语音识别引擎,供Palm 和类似的有限键盘手持机使用。新产品成为个人语音助理(PSA),具有语音识别任何文本至语音功能,Palm III的背部PSA内是嵌入式ViaVoice软件,对Palm OS和NEC的处理器都作了优化。展示时,使用者通过语音命令和控制呼叫核实约会、记录短信息、有选择地将字词翻译成西班牙文和日文。

IBM称他们无意生产这种硬件,这套可以在几乎所有平台上运行的嵌入式软件开发工具(SDK)可许可给开发商。这套SDK可识别500个字词,对大多数命令和控制功能已足够,读出电子邮件的文本至语音能力则是无限的。机器内的闪存用来存储较长的语音段落,然后与装有全版ViaVoice软件的台台式机进行热同步--将语音变成文本再自动输回Palm。嵌入式ViaVoice多平台软件开发工具目前正进行β测试,第二季度末可交付。一些PDA和汽车生产厂商已表示了对该软件的兴趣。(IDG电讯)


*IBM公司向盲人捐赠网页朗读软件

2000/3/21《人民日报》(海外版》

本报北京3月18日讯 IBM公司向中国盲人协会捐赠网页朗读软件仪式今天在北京举行。中国残疾人联合会理事、中国盲人协会副主席滕伟民, 北京盲人协会主席李伟洪,IBM中国有限公司语音部总经理黄础章出席捐赠仪式, 来自IBM公司东京研究实验室的研究人员还向与会者演示了网页朗读软件,并进行了听众试用。

一直处于语音技术领先地位的IBM公司以不断创新的技术力量推动着信息技术的迅速发展。经过多年的研究与开发,IBM公司最新推出的揑BM网页之声?-中文语音合成技术(TTS)与互联网的完美结合--给所有承受着视觉障碍或失明痛苦的人士带来了福音。

IBM网页之声的语音合成技术可以使盲人听到网页的内容,同时显示网页让视力正常的人给盲人提供帮助。它利用小键盘控制浏览,用户可以自定义浏览替代信息;它具有网页信息归类和区分功能并提供电子邮件接口。IBM网页之声还提供有声的软件安装,提供联机帮助。