安徽中科大讯飞信息科技有限公司总裁刘庆峰专访

2004-09-13 14:31:00   作者:   来源:CTI论坛   评论:0  点击:


<  刘庆峰博士,中文语音产业的知名人物。1999年,作为学生的他传奇般地创立了科大讯飞,当时一度成为大学生创业的典范,在此后的5年时间里,使中文语音产业成为国人的天下,在语音合成(Text To Speech)方面不断推陈出新,创立了中文语音技术发展的一个又一个里程碑。科大讯飞也已从几个学生创始的小公司成长为规模庞大的中文语音技术开发基地……

  作者:刘总,您看起来非常年轻。
  刘:我73年出生的,31岁。

  作者:我们都听说您在这行业是年轻有为,能简单地介绍一下您大概的创业经历吗?

  刘:我90年进中国科技大学,学的是电子工程系,因为成绩比较好,92年就进了中国科技大学和国家计算机研究开发中心联合设立的人机语音通讯实验室。95年本科毕业,保送上研究生,那时就开始作为语音合成这个项目的负责人了。我在本科毕业论文阶段,就在做一个语音合成的合成器,模拟人发音的整个过程,用数字信号技术来处理这个模型。这个是我自己独立设计的,效果挺不错,参加了863评比,当时引起了较大的轰动。
95年做语音技术用参数合成,做到了一般的波型合成的音质,效果还是很好的。我在那时就带些人正式开始承担实验室所参加的测试。我在科大本科时成绩很好,在与数学、物理相关的学科中几乎都是第一名,又是班长,本来是想出国的,但因为对语音合成技术有浓厚的兴趣,就留下来读了研究生。98年研究生毕业,当时科学院系统最高的荣誉-中国科学院长奖金特别奖给了我。

  作者:当时这个奖金是发给研究生的?

  刘:是的,是发给研究生里面学习和科研都做得最好的学生。后来98年参加国际会议时也是,在新加坡开的首届国际汉语语音研讨会,我得了唯一学生最佳论文奖。

  作者:那刘总在读研究生的时候有没有想过要出国去发展,据我所知,中科大的学生还是相对比较热衷于出国深造的?

  刘:我当时出国基础很好,很多大学都要我去。可后来研究生毕业之所以会放弃出国,最主要还是看到了产业化的前景。如果要出国有两个选择,要么去美国几个做语音比较好的大学,要么到东京大学,东京大学做语音是很棒的。无论去哪里其实都可能会跟我原来的实验室形成竞争,这是让我放心不下的一个很大的因素。第二个就是,科大当时那种开放式的研发体系,不拘一格的研究团队组合,可以把我们当时做了一半的想法更快地落实下去,因为我们在98年863评比时是第一名,有很好的评价,而且那时就明确地知道还有很大的余地在后面。第三就是产业化前景。我记得从96年开始,863提倡'顶天立地','顶天'就是核心技术要做到国际领先,'立地'就是要立足于市场,能够产业化。当时我们已经开始在对外开展产业化合作了,当时到华为出差一个多星期,把我们的语音技术和他们的系统融合,有很大的感触;98年给福建工商系统做查询系统,在把技术产品产业化方面得到了很多启发。

  我原来想只做技术,对管理、财务、市场、销售这些事情一点兴趣也没有。我当时的口号是'要把科大的语音实验室做成中国的贝尔实验室',把科大一批非常优秀的同学都留下来了。开始只有我一个人,98年到99年留下了十几个人,我做总工组建研发队伍。那时科大BBS站上的六个版主在讯飞,包括黑客版版主、编程版、还有科大BBS站长。我们的创业团队,真的是留下了这么一帮很优秀、很有冲劲、有激情的人。

  到了98年底感觉到,一个新的过程在被大众接受时需要一个很长的过程,这个过程中如果你的产品方向确定不好就是问题。

  语言是人们沟通和获取信息最自然便捷的手段,不管是教育、交通、银行、电信等等,都能用到语音,如果你每一块都去做,就象狗熊掰玉米一样,每样都没有着落。我们在语言学研发的进展还是比较快,参加火炬计划国家十年展,我们做的是'天音话王',就是人和电脑对话,在曙光2000CPU、东软医疗上的应用,都是非常典型的成果。感觉技术上做得是挺不错,又拿了软博会的金奖,但是产业化做的非常累,根本推不出来,到年底时连发工资的钱都没有了。所以到1999年大家都说你一定要出来挑头,我们给自己干,我也觉得不这么做不行了。最主要是对产业本身的最前端性的看法你要有,我们提倡的科大讯飞走的道路是创新型的文化。也就是说你要比用户更了解这个技术下一步可能达到什么,哪些东西是有可能做到的;这些可能做到的东西中有哪些是用户可能会接受的,是能够打动消费者的。所以实际上是开发全新的市场,而不是在现有的市场上去增强。这个就是对技术趋势的把握能力和对哪些技术能打动消费者走向市场的把握能力,这两块结合起来是特别重要的。而结合起来以后,你教育市场需要花费巨大的时间和精力,另外在全新的产品研发过程中的不断摸索和完善,使得你不可能同时做非常多的事情,一定要有很清晰的脉络和战略。那时我就感觉到,如果由不是非常懂行的人来领导,不论此人多聪明、多有想法,都是很难的。于是,我们就成立了自己的公司--科大讯飞。

  到99年底选了三家投资方,三百万的公司就变成了估价五千万。

  有钱以后首先是把国家863支持了这么多年的语言所、声学所这两块并起来,请所里我们认为跟我们最有互补、做开发最好的专家成立联合实验室。

  这么做在当时也非常符合他们的要求。这两个机构本来要自己做完整的系统,面向市场做销售,很累。而且他们的研究生毕业都走了,98、99年微软、IBM在中国设立研发中心,把这些机构里的跟语音相关的研究室、实验室连锅端走,人都挖走。而我们提供了一个安全的机制,让他们能安心地从事他们所擅长的研究,我们提供研究经费,还可以派人协助他们从事的研究。从基础上做了有效的整合,使得我们下一步的研发能够更快。

  2000年底刚融完资,而我们的收入很少,压力真的很大。股东方面是要看效益的,希望我们能做些挣钱的事,我们顶住了,觉得要做讯飞该做的事情。那正是意气风发的时候,我们的人也不多,在安徽本地要做一些信息化建设的项目、系统集成就能挣钱,但我们当时没做,觉得这不是一个方向。我们觉得关键是要有核心技术和核心产品的突破,我们就提出了'语音平台战略'。象Intel提供CPU,大家做各种服务器和各个领域的电脑一样。我们提供语音平台,让各行业熟悉这些行业应用的、有开发能力的厂商在他们的系统和产品里进行推广。

  到目前为止,股权经过了两次比较大的变化,一次是99年底,一次是2001年6月份联想、Intel的进入。在这个过程中,我们始终确保了我们的创业团队是第一大股东,不光在经营上是主导,在开股东大会表决确定公司的方向时我们也是主导。2000年7月,语音平台终于开发出来了,在Intel在上海的实验室进行了测试和优化,又通过了华为的测试。到2000年底,我们的合作伙伴有了50多家。"巨大中华"、Intel、联想、上海贝尔阿尔卡特、东软……全都进来了,大家觉得我们做的东西跟别人不一样。2000底我们开始逐步扭亏为盈。

  作者:那跟刚才提到的巨头们合作,是否是完全把你们的语音平台嵌入到他们的产品里面?

  刘:对。当时有了50个开发商,对我们的信心有很大的鼓舞。2001年6月时,开发商有了大约100个了。那时正值全球网络泡沫破灭,纳斯达克股市大跌的时候。这时联想、Intel和科技部火炬来投资,还有上海第一的民营企业上海复兴。在这个过程中,做为语音产业的领导者和拓荒者的双重角色是我们始终坚持着的原则。

  作者:在您的眼里,其他做语音的企业,比起讯飞来说是要小很多的吗?

  刘:是的。他们不论从公司规模、研发投入、市场应用都要小很多,只是在局部领域跟我们有一些竞争。我也并不希望这个产业中只有讯飞一家,还是希望能听到更多不同的声音。

  大家应该在广阔的应用里百家争鸣,百花齐放,形成一种良性的合作。国际上对语音行业是持续关注的,也是投入了很多精力的,但在中国市场没有投入重兵是因为中国市场内有讯飞这样不易战胜的对手。目前讯飞在产业中的地位是确定了。在前五年中,我们的团队发展到二百人,在中国科大、中科院声学所、社科院语言所建立了三个联合实验室。这个团队可以说是历经了风雨,同甘共苦,是非常好的团队。

  这几年当中,我们从充满梦想变得理智而脚踏实地,在创业过程中得到磨炼很重要。公司成立之初,华为等IT巨头正在大张旗鼓地招人。电子计算机领域的人全要,年薪起薪7-13万,而我们留下来的人月薪是1600元。所有的人在99年都签了三年的劳动合同和保密协议,没有一个人提待遇提福利的。我本来在98年留下来时,是想试试看的,还保留了出国的机会。比如保送我上博士我不愿意,是自己考的,因为考上的博士随时可以出国。后来没有走,也有个很大原因就是因为这个团队,因为这些兄弟。

  作者:您在98年后马上接着读博士,但当时还是用了很大的精力在语音研发和公司的运作上。是吗?

  刘:我读博士时,我们第二梯队的研发还没有完全成长起来,当时的关键技术开发还是由我来参与的。从02年底到03年开始,他们已经能够将研究承担起来,现在我主要只是把握产品战略,讨论一下研究路线,具体的就不参与了。现在从事产业经营,时间和精力就不够了。

  作者:刘总,在语音合成的技术层面上好象有两种不同的模式吧。是否能介绍一下?
刘:一种是参数合成,一种是波形拼接,两种方法是曲线前进的。参数合成就是模拟人的整个发音的生理过程,从腹部出来的气流经过声带的调整变成脉动气流,经过声道、牙齿和鼻变成声音出来,这个过程可以用一个滤波器来模拟发音器官。前面肺部的气流就可以有一个激励源,就好象向一个管子里用鼓风机不断地鼓入不同的东西,管子变化出不同的形状,声音就出来了。语音很大的问题是,同一个字的声音在不同的语句里,不同的字词排列,不同的节凑、情况下,发音都不尽相同。

  要让一个机器念出人的声音来,就好象要盖一个大楼,首先是要有一系列的规则,在当前的一句话里每一个字、每一个音节,它的声调、时长、能量的参数是什么样,就好象大楼的设计图纸一样;

  第二,你要有盖楼的砖头,最好是各种初定形状,有些适合做柱子、有些适合做边角;

  第三,你要有砖刀,把它切成你图纸中所需要的各种形状,最后拼起来就盖成大楼了。我们留的那些参数就相当于那些砖头、原材料,经过一种管子,变成声音出来。使用这种方法,在参数中的协同发音比较好调节,听起来会比较流畅,它基于这种滤波器的模式,很多参数相互之间可以变得很平滑。但是它的缺点是,由参数生成出一个个的音节然后拼成的,与原始的音节相比总归多少会在音质上有一些差距。它的自然度比较好,但听来音质上差一些,有点模糊。

  波形拼接,就是从原始语音中把声音取出来直接拼,在声音剥离上做很小的调整,这种方法的好处是听起来每个音都很清楚,但可能会一字一顿的,自然度比较差。这两个方法是可以融合的。最早做语音的首先是用波形拼接,94年中科院声学所做得非常好,到95年我们提出了参数合成,得了第一。98年我们基于波形拼接有很多独特的方法,在国际会议又拿了最高奖,跟第二名拉出了很大的差距。99年、2000年时,国际上又出现了大语量库的方法,它就是一种波形拼接,但是它用统计的办法从海量数据库里去找。

  我们的语音技术现在做到超过一般的讲话人是没问题,可以达到接近播音员的水平。但是要让它做得更灵活,比如说能够自动地判断语气、语调的重点,判断文章的结构,这个就要涉及到对人类高级神经活动的生理解剖学,这个突破不了,我们很难做到完整意义上的突破,所以语音要做到跟真人一样,这个配套学科的突破必须要有。但在此之前,我们做到的很多东西已经可以使它非常棒了。我们将在今年年底,最迟明年1季度推出一个新的技术,你对着我们的系统讲几分钟话后,我们的系统可以模仿你讲话,现在国家领导人也很重视。这个的关键技术我们在研究,包括摘要跟语言配套的进展,我能够把2万字的内容变成200字的摘要,你先看看有没兴趣再去看全文。语音技术的突破一定依赖于语言技术,这方面我们的进展也很快。我们那三个联合实验室研究的是更前端性的,讯飞自己有很强的基础研究中心,主要瞄准未来一、两年中马上将可能用到的东西,同时消化吸收这三个实验室的东西。

  作者:95、96年时,我就开始从事CTI行业,那时就感觉到语音识别好象很快就能好了,现在又过去了近10年,好象还是当初那样的感觉,没有什么本质的突破。您能不能再谈谈语音识别方面的情况?

  刘:语音识别和语音合成这两个技术从关键技术的突破点上来说有很多的共通的地方。语音合成只要能念出某一个标准、令人舒服的声音就行了;如果做对某一个特定的人的语音识别比较容易做得好,但如果强调的是非特定人的、任意词汇的、各种噪音环境下的,这个就难了。

  语音识别从应用和技术上可以分为三种类型,一种识别就是声控――命令控制,你说出命令,它完成操作。

  第二,身份确认,在一些非高度保密场合,作为一种辅助手段,配合钥匙的使用,现在也是很不错了。

  最难的是语音听写,你念完后屏幕上就出来了。现在的语音识别就象一个小孩子一样,这个孩子学会了所有的汉字,知道读音,那么给他一篇文章他能读出来,但分词断句可能会有错误,但大概还是能听得懂。但是你让他听写,特别是专业文章,他就会错得乱七八糟。多音字、新词汇等等,汉语中存在很多问题。如果他只有耳朵和嘴巴,没有大脑、知识,他没法听写正常,这是第一个障碍。第二个障碍是语音听写本身的市场有问题,导致这些企业或者研究机构并没有花大力气去投入。市场需求量不大,软件盗版问题,开拓市场的费用,这些都使得大家对这方面的投入持保留态度。近几年这项技术几乎没有什么进步,最多就是在词典库、在针对特定领域的文本的语料的收集做得好一些。我认为语音识别技术下一步重点需要突破的是在声控识别中智能的程度,包括节外词的处理,和一句话中关键词的提取。另外一个就是面对特定场合的噪音环境,比如汽车环境,或是在一些特定领域的噪音处理,应该作为语音产业下一步的重点。 作者:在国内做语音的厂商好象不是很多,全国一年总体的市场份额大约是在1个多亿吧?
刘:我感觉是的。

相关阅读:

分享到: 收藏

专题