首页>>>技术>>>语音应用>>>语音识别(ASR)  语音识别产品

 

语音门户——用语言“改变”世界

2001/03/23

从古老的“芝麻开门”传说开始,人类就一直幻想着用语言去征服和改造自然。伴随新技术的不断发展,人类的这一梦想正在逐步实现。谁能预知中文语音识别技术究竟能给我们带来什么样的应用前景?技术与应用又将是怎样的一种互动关系呢?

对话者:

主 持 人:王向东 《计算机世界》报记者

IT 厂 商:沈鱇骐 言丰科技有限公司(中国区)总经理

用 户: 黄富清 北京京信北斗信息服务中心262信息台总经理

对话主题:中文语音识别技术的应用将带来什么样的商机?

主持人:昨天,人类对技术孜孜不倦的追求,总能不断带动应用的脚步。今天,语音识别技术的商业应用正在引起人们的广泛关注,因为它将以令人难以置信的扩张力量改变我们的工作和生活。语音识别技术已发展到何种阶段?它未来的应用目标是什么?

人机交互突破瓶颈

主持人:新技术转化为生产力的核心是应用,而同样的技术未必能得到同样的应用效果。比如说电脑,中国人使起来就是不如美国人方便,输入方式是最大的瓶颈。从五笔字型到汉王手写输入,再到最近的笔输入,都是在努力让中国人实现同电脑更方便地交流。当然,还有一种技术可以使不同国家的人同电脑保持同样的距离,这就是语音识别技术。只有通过这项技术人们才能同样享受到电脑科技的无穷魅力。包括IBM、飞利浦等一些知名企业都在不断挑战语音识别技术这一难题。言丰科技是否也属于这支队伍中的一员?从应用的角度去看问题,语音识别技术要攻克的瓶颈是什么?

沈鱇骐:从技术的角度来看,目前语音识别技术有三个研究发展方向,即电脑、电话和手机三个不同的应用领域。第一个是电脑的语音录入应用,就是电脑能够把人们所说的话记录下来,解决文字输入的问题;第二个是电话的语音识别应用,就是借助通信平台实现语音技术的更广泛应用;第三个是手机的语音识别应用,就是嵌入式的语音识别技术,实现手机、寻呼机在移动通信中的语音识别应用。我个人认为,五到十年以后,上述三个方向将会走到一起来。

目前,IBM主要是在第一项电脑语音录入方面取得了重大的突破,而言丰科技所研究的领域主要是在第二项,如何通过通信平台实现语音识别技术的广泛商业应用。这两者在技术领域和应用领域都有着较大的差别:首先是语音信号的采集方式不同。电脑录入对语音质量的要求比较严格,而电话采集的语音质量就比较差;其次是自然语言和非自然语言的区别,电脑录入使用的是非自然语言,需要对电脑进行特殊的培训才能使用。而电话是自然语言,因为你无法预知是谁打来的电话,是男是女、是何种口音;第三个不同在于字库量,电脑录入的难度是词汇量非常巨大,要尽可能包容任何可能出现的词汇,这也是电脑录入在技术上的难题。而基于通信平台的语音识别应用是有一定范围的,它所涉及的词汇量是可以控制的。由此可以看出,两种语音识别技术将在不同的应用方面发挥不同的作用。

言丰科技研发的语音识别技术所要达到的应用目标是:通过自然的语言交流,实现人机交互式的对话形式,使电脑能理解我们的语言,并按照我们的指示去工作。这一目标的实现将会给人类的工作和生活带来质的变化,同时将产生巨大的商业价值。因此,今天基于通信平台的语音识别技术的商业应用已为众多的企业所关注。那么为什么语音识别技术应用会突然热起来呢?我认为是技术的发展在一定阶段时打破了应用的瓶颈,从而带来了应用的进步。因为语音识别是一项难度很大的技术,里面的算法非常复杂,对CPU的要求也非常高,过去应用的条件不具备。而近两年CPU发展很快,而语音识别中的算法也日益精湛,两者有机地集成在一起后,应用的条件就日趋成熟。可以预见,随着技术的快速发展,再过10~20年的时间,我们将可以做到非常自然的人机交互式对话。

技术应用互为依存

主持人:技术和应用是一对矛盾,他们互为瓶颈、互为动力,语音识别技术也应体现这一客观规律。具体在实际发展中,语音识别技术与应用是如何相互作用的?

黄富清:我们在实践中对技术与应用的体会还是很深的。因为我们开办的信息台属于高科技类的经营模式,这决定了它必须采用比较先进的网络技术和语音识别技术,才能够为用户提供高质量的服务。262信息台也正是通过积极采用新技术提供新服务,从而获得了可观的经济效益。比如说,信息台的起步就是建立在20世纪90年代应用先进的语音卡技术的基础上,通过这块语音卡开发出了多种语音服务系统,从而提供了无人值守电话、股票信息自动查询系统、电话自动点歌系统等多项服务。那时候买一块语音卡要花4万多元,加上软件开发费总共需要11万多元。但是我们几天就能挣回来,因为打电话查询的人特别多。当时股票炒得火,电话查询又非常方便,满足了广大股民的实际需求。

正是新技术给我们带来了应用的提高和实际的收益,但同时技术的瓶颈又成为应用进一步发展的拦路石。由于语音技术几年没有进一步发展,信息台的业务也因技术的限制而无法跳跃性地向前发展。举例而言,用户今天要通过信息台查询股票行情,需要在电话上操作很多键,要通过几层、十几层甚至几十层,才能找到自己想要的东西。用户要想查询某支股票,首先要选择按键1(上海)和按键2(深圳),其次要查询多少号的股票,第三再查询1(总指数)、2(收盘价)、3(现在价)等等。

这种查询方式非常繁锁,很不方便,用户多数是查到第四层就不愿再继续往下听了。有的用户听着听着就糊涂了,或者是听了半天也没有找到自己想要的东西。用户普遍对这种水平的服务越来越不满意。现在移动局的手机短信息服务也遇到这个问题,用户发了半天最后按错了,就得重来,可是费用还要照交,用户对此非常有意见。

这里面就涉及了技术与应用的关系问题,用户进入了信息查询系统就应该交费了,可是用户又没能得到自己真正想要的服务。这就是因为技术不完善,不能满足今天用户的需求,如果技术不能向前发展,应用水平不能进一步提高,原有的低水平服务将逐步被用户所淘汰。所以,我们对任何能带来新应用的新技术都非常关注,只要它能提高我们原有的服务水平,我们就会积极地应用它。现在光靠改善服务态度是不能从根本上提高服务质量,只有在技术上有新的突破。

沈鱇骐:的确如此,技术与应用是密不可分的关系。言丰科技所推动的基于通信平台的语音识别技术,已超越了电话按键层层查询的应用时代,已可以做到通过电话与电脑交谈。比如说我想查今天的股价,电脑已经可以根据你的语音提示,自动找寻并报出股价给你听,电脑的语言识别系统已可以理解用户要查询的内容。这里面包含着一个关键的自动化技术,使电脑可以从数据库里找出你所需要的东西,在一定范围里,我们已能够做到人机交流了。这就为下一步推动商业应用奠定了更坚实的技术基础。

我们现有的语音识别系统还有一定的局限性,还不能自然到像人与人交谈一样。比如说“帮我看一下北京今天的航班情况”,这句话本是很自然的语言,但要从语音识别的角度来看,我们要做出很多改进,从硬件到软件。我们认为还需要十年、二十年才能真正达到人与电脑用自然的语言交谈。那么为什么我们今天就把现有语音识别技术拿出来用呢?是因为我们已看到在很多应用领域,在一定的可控制范围之内,现有的语音识别技术已足够推动应用水平向前迈进一步,它会给用户带来效益上的提高。

从目前我们的理解,从语音识别技术应用角度来说,这项技术还远未达到应用的热潮。我们认为真正的热潮还要一年到两年时间,一来是需要培育市场,接受新观念;二来是改善应用环境,包括技术环境、市场环境,无论是电脑平台还是通信平台,都有一个逐步淘汰和更新的过程。此外,还有一个语音特征数据库的积累,这个积累过程没有任何捷径可走,只有从大量的语音量中提取相同的语音特征,才能真正产生成熟的应用。

语音门户商机无限

主持人:语音识别技术在不断进步,这项技术所带来的商业应用也将日益广泛。那么,经过未来10年或20年发展,技术与应用的成熟将会产生什么样的结果?语音识别技术近期可以实现的应用目标是什么?

黄富清:作为用户,我深深地感受到技术向前发展一步,就会促进生产力向前发展,而且它的经济效益可能是成几十倍往上增长。同样,我们如果采用了一个好的新技术,下个月的收入会成倍往上增长。从现实情况来看,从语音卡到软件开发有局限性,一层一层往下分,如果信息量大了,内容太多了,服务就没法做了。从我的经验看,如果技术应用稳定在一个水平上,客户却不是稳定在同一水平上,而是在下降。因为你总没有新东西,客户就会不满意了,就可能转向一个更新更好的应用平台。

所以,我们去年8月发现言丰科技的语音识别技术之后,觉得非常了不起。应用言丰的技术之后,我们就可以打破很多原有的限制,用户可以比原来更方便地进行人机交流,比原来按键方式方便、快捷多了;用户满意多了,爱用的人多了,我们的企业效益也随之提高了。

沈鱇骐:我个人认为,语音识别技术的发展是一个环环相扣的关系,由于语音识别技术所借助的很多基础性技术也在不断发展、变化,使得语音技术所要攻克的目标也在不断发展变化。所以我们把语音识别技术定位在应用技术,底层的技术平台搭得越高,应用层次的技术就开始发生变化。从用户的角度来看,你可以通过运用语音技术去进行企业的改造或企业的服务,然后再把更好的服务提供给更广泛的终端用户。

如何把电话语音系统跟Internet和商务结合起来?电话在全球有1.7亿部,应用基础非常广泛,为此,我们在中国推出了语音门户平台新理念,分为电信级的语音门户平台和企业级的语音门户平台。目的是通过它为个人、企业和电信行业提供更好的语音识别技术服务。可以想像一下,当某一天您开车上班时,可以用语音控制开关车门、车里的音响、手机;到办公室后也是用语音指挥收发电子邮件、收发传真、查询电话录音、制定工作计划、筛选有效信息,以及用语音预订机票、午餐、查询交易股票等等。总之,通过开发与推动多语种交谈式语音识别技术在最普及的电话及无线电话中的应用,可以使有用、准确、及时的信息在任何时间、任何地点提供给需要它的任何客户。那时,语音识别技术将真正帮助人类用语言打开改变世界之门。

 



相关链接:
语音门户的革命 2001-03-23
语音网站不是信息台 2001-02-16
网络与电话技术的完美结合 -- VoiceXml 2001-02-07
语音,无所不在 2001-01-18
语音识别技术面临的问题 2000-12-19