占据人机语音交互技术的制高点
2001/07/27
IT技术和市场的下一个热点是什么?当计算能力不再是瓶颈,当计算机、手机、PDA和各种智能机器,都通过有线或无线网络连接起来的时候,IT 技术的热点和市场竞争的焦点是什么?是人机智能交互技术—人类通过什么手段或技术与信息终端进行交互,从而实现人与人、人与机器及网络进行信息沟通。
IT下一个热点:人机智能交互
当PC机的利润越来越薄,DOTCOM遭遇挫折的时候,从事文字识别开发的汉王公司迅速崛起,把手写识别引入PDA的恒基伟业获利颇丰。IBM的中文普通话连续语音识别系统一推出,就被汉王公司集成到听写产品中,一举打败了摩托罗拉在人机智能交互市场上的进攻。
事实上我们正在进入这样的时代,近几年来,随着文字识别技术、语音识别与合成技术的进步,我们已经让计算机实现了“我写你认,你听我说”的交互方式。实现了手机拨号用嘴说,PDA输入用手写。随着计算机和互联网的进一步普及、移动智能消费类电子产品的流行,人们越来越发现,需要更符合人类生活习惯人机交互技术。从键盘、鼠标到扫描仪、手写笔,我们正朝着让计算机说人话、认草书的方向快步推进。技术趋势和需求的拉动都在明白无误地告诉人们,IT下一个巨大的市场当然就是占世界人口五分之一的使用汉语人群的人机交互。实用性语音识别、语音合成技术和产品的需求如此巨大,无限的商机正在凸显出在我们的眼前。
争锋,在语音技术的“中国区域”
就像鲨鱼嗅到了血腥,无限的商机必然会带来激烈的竞争,说出来人们可能会大吃一惊。单单在让计算机能听懂中国语、说中国话——汉语语音识别与合成技术领域,就聚集了几乎所有的世界级IT巨擎。微软、Intel、Motorola、IBM都在这一领域投入巨资,显示出他们对这个市场的信心。就连家电巨擎PHILIPS、松下和大量的手机厂商也纷纷觊觎这块即将到口边的“肥肉”,集中大批优秀开发力量进行汉语语音技术的研究与开发。因为谁拥有了技术,谁就拥有了市场,无论这个市场处在地球的哪一个角落。
微软董事长比尔·盖茨从CEO的位置上退下来要干什么?他自己说得好,终于可以踏下心来搞手写输入和语音识别技术。而微软中国研究院的主要研究方向恰恰就是中文信息处理和语音技术领域。这些国外的IT大厂商,在吸引国内技术人才上更是不惜血本地投入,微软中国研究院高级研究员的年薪最少也达到几十万元人民币。这样做的目的就是抓住语音识别与合成技术的命脉——人才,在这些大公司的中文语音实验室里,绝大部分科研人员是国内培养多年的、毕业于几个著名语音合成技术实验室的硕士和博士。1998年比尔·盖兹派往中国筹建微软研究院的李开复博士,就是国际著名的语音技术专家。据了解,国内中科院和清华大学两个著名的语音合成技术实验室培养的硕士、博士生,有90%以上都进入了国外知名厂商的实验室,甚至一些还没毕业的学生,也成为猎头目标,在毕业之前就开始为他们服务。甚至在国内最高水平的语音技术实验室,都有关键技术发明人乃至项目负责人,不断地进入国外大公司。有的语音技术专家已经成为外企的语音项目的领导和组织者。
其实,伴随着国外厂商们马不停蹄、只争朝夕的技术推进,国外厂商的语音技术产品已经出现在国内的市场上跑马圈地了。我国某大型通信公司采用由以色列一公司开发完成的中文语音合成技术,进行电话查询及声讯业务,每一条电话线的技术使用费是1万元/年。国内著名的一家软件厂商,其最新推出的手写识别软件即采用了美国L&H公司的语音合成技术,所需费用为每年几十万乃至上百万元。冰山的一角,已经开始露了出来。要不了多久中文语音市场就会乱云飞渡、硝烟四起。
据不完全统计,目前在中国开拓语音技术市场的外国厂商包括:微软中国研究院、IBM中文语音研究中心、Intel中文语音研究中心、摩托罗拉公司、西门子公司、Dialogic公司(国际著名电话语音卡生产商)、飞利浦公司、L&H公司、Dragon公司、朗讯公司、AT&T公司、日本松下。说到这里,我们不禁要问,中国人在做什么吗?我们这些写方块字操汉语母语的软件企业、语音技术专家在做什么?中文语音合成——在中文软件领域中我国具有一定竞争优势的“最后的一块处女地”我们还敢丢吗?
语音技术:不是说“不”而是如何“说”的问题
我们曾经因为别人的垄断和歧视说“不”,我们还可以“挑战微软”,拟或挑战别的什么,但是你不能反对人家研究你的语言,开发你的文字。市场是共同的,决不因为民族的缘故而给那一家企业例外的规则。语音识别技术我们已经走在后面,而语音合成技术市场还未见分晓,机遇尚存,路在脚下,关键是看怎么走。
汉王因有技术在手可与微软平坐于谈判桌前,中文之星因有在手的技术方可在微软拼音之上加挂“狂拼”。在外商IT列强强攻中文语音合成技术的背景下,这计算机的中国话怎么说呢?
没有成功的人总是寂寞的,如果他不能在困境之中坚守自己的选择而随波逐流,那么他永远也不会有成功的那一天。当我们看见汉王发布它识别行草汉字的软件时,当我们登陆北京捷通软件公司的网站,听着计算机(不是放录音)真人一般说着IT界的新鲜事时,我们的心才稍稍感到一丝轻松,在IT技术和市场的数字战线上,还有人在不懈地坚持着、奋进着。北京捷通软件公司,用IT圈里的俗话说是“海龟民营”企业。不用说这里了名校的高才和海外归国人材。它的老总张连毅总说他的企业有着非常雄厚的科技实力和先进的经营管理理念。这话我还真信,为什么?因为它有一个语音研究实验室,它有国际和国内语音技术著名专家吕士楠亲自担纲,其技术实力在语音技术领域那是不言而喻的。
捷通公司成立的时间并不长,但已经为客户提供了用于计算机电信集成系统(CTI)的语音合成技术、录易汉语智能输入/输出系统,以及可听可说的飞达多媒体电子邮件系统等众多的解决方案,而这一切的核心技术,就是他们自主产权的中文TTS技术。其实一个年轻的民营软件公司要面对国内低迷的市场和国外IT巨头们的打压,想搞自己的技术研发并不是一件容易的事情,捷通人能够取得进步还真的说它有先进的管理经营理念,他们与中科院有关机构和清华大学语音合成技术实验事合作,在科技部、市科委的大力支持下,成立民营企业的第一个语音技术研究中心--捷通华声。国内、外著名的中文语音专家吕??教授放弃国外几家大公司的高薪聘请以首席科学家的身份“坐镇”捷通华声,这标志着我国软件企业在语音技术领域独立开发、自主产权的道路上迈出了崭新的一步,从具体产品的开发向关键技术的研究深入。
捷通在资金并不雄厚的情况下,将一半以上的资金用于技术开发,其眼光和魄力的确是令人敬佩的。也许正是许多个捷通的不懈努力,才有我们在中文语音软件领域说“不”的资本,因为是我们自己的技术,率先让计算机以人性化的声音“说”出了我们的语言,“说”出了我们自己本该占领的市场。
摘自硅谷动力