首页>>>技术>>>cti平台

车载语音识别十年沉浮路 各领风骚几多年?

2011/05/05

  车联网给了语音科技人第二次创业的希望

  王力劭凝视着演讲者,偶尔地,他还会把一根铅笔放在嘴边把玩着,似乎在思考着今天即将发生在自己身上的戏剧性转变。今天是3月31日,他就坐在世纪金源大饭店一个研讨会场的第二排。

  下午5点20分,车音网首席科学家王力劭上台,畅谈平板电脑在未来的车载应用。没有多少人知道,就在20分钟以前,他辞去原公司高管职位且离开公司的离职声明正式生效。以非常职业的方式告别效力八年的老东家,王力劭再次回到了一个叫沈康麒的人身边,回归了一支十年前他曾经战斗过的团队。

  十年原班人马再聚首

  那是一支在梦想的甘甜和现实的苦涩中历练过的队伍,精神领袖沈康麒早年靠IT产品贸易生意起了家,2000年开始一根筋地投资语音识别产业,第一家公司起名为北京金耳麦科技有限公司(下称“金耳麦”)。

  王力劭就是那年应聘金耳麦实习时,第一次见到了沈康麒。

  10年荏苒,语音识别产业发展小高潮偶有,但总体偏冷。期间,沈康麒完胜过,也大败过。此后的东山再起做“车音网”,全因聚集了一帮精于此道、乐于此道的弟兄。

  在王力劭看来,他们这几个核心成员就好像组成了一支足球队一样,在不同的位置上各负其职、默契配合。

  商人沈康麒作为团队的引领者和精神领袖,扮演了球队老板、经理和教练的多重角色。沈老板决定公司做什么,然后提供公司所需资源。他显然属于思维超前的类型,熟悉他的人一方面会佩服他,另一方面也知道,他做事的风格很爱“飞”。

  后卫“许大师”,负责基础的算法编写。“许大师”是一个典型的研究型人才,早年在某国内大学读博士的时候,他主攻模式识别,研究的课题就是语音识别和信号处理。

  后腰的位置则交给了“庞大师”。他负责把许大师制造出来的算法封装成软件的基本模块。车音网作为专攻车载语音识别的公司,前期需要大量 “苦力式”劳动,如语料采集、分析、机器训练等。“庞大师”拥有信号处理专业的出身,正是这些工作的不二人选。

  接下来,球传到了中场这里。模块做好之后,就需要构建出平台。王力劭就处于这个承前启后的位置。能否在扩充支撑业务的同时,保证商业模式,成为了他要重点考虑的事情。有时候他更喜欢称自己为工程师,而有的时候他做的事情却像一个军师。在做某一项投资时,质量、成本、时间作为相互制约的三边,构成了一个三角形,王力劭很擅长做这样三角形的平衡,并建议“球队老板”之后的商务活动如何推进。

  首席运营官曾辉是一位全能型的前腰,他不仅能贯彻战术、把握球队的内控,还负责与外部的客户群、整车企业、电信运营商的洽谈等等。

  球队的前锋,所做的便是平台之上的应用了。应用是移动互联网时代最千变万化的,也是最接近用户的产品。商业模式的选择对于应用的影响也很大。对于应用的发展,车音网有着更深层次的考量。

  沈康麒、曾辉、王力劭三个人的谈话经常这样进行。沈说:“这个应用,必须有。”曾问王:“他说这个必须有,那这个到底有,还是没有?”王告诉曾:“这个,可以有。” 沈康麒和王力劭更是高兴起来就勾肩搭背,有分歧的时候就拍着桌子互喊。

  这五个人总是互相告诫:不能自我膨胀。3月31日,王力劭一结束完会议就立刻飞到深圳见沈康麒。他问沈康麒:“我出来跟你干,最大的使命是什么?”沈康麒思考了一下:“你把我们的理念整理一下,把整个平台的规划做一下,把很多和外面的沟通建立起来。”王力劭说:“错。第一件事我是拉着你,你太能飞了。资金到了,你又可以往上飞了,我得把你扽下来。”按照沈康麒的性子,用一个月可以创造的奇迹,他绝不愿等到第32天。而王力劭则会告诉他,用三个月创造出来的奇迹会更稳。

  如今的车音网所走的路以及这个核心团队在心态上的一些调整,和他们多年来摸爬滚打得到的经验教训是分不开的。

  “金耳麦”的沉浮聚散

  王力劭在2000年进入沈康麒的金耳麦公司实习。那年,金耳麦公司开始专注语音识别,主攻的方向定位在手机语音识别上 。早在1999年“许大师”用“586”电脑跑通了他们的第一套语音识别算法。只不过,在那个互联网刚刚起步的年代,硬件设备并不支持复杂的网格计算,仅凭借自身力量难以短时间内有所突破。在2001年,他们的语音识别技术已经具备了较好的素质。这时,金耳麦被一家颇具实力的境外同行公司看中了。当对方提出收购案时,沈康麒并未太多犹豫,他仿佛看到了强强联合之后,兼具两家之长的搜索引擎能开拓出广袤的市场。

  国内的语音识别市场仍未成形的时候,这家境外公司把另一家很早进入中国市场的美国Nuance通讯公司视为唯一竞争对手。当时,一家当今非常有名但尚未崛起的研发型企业——安徽中科大讯飞信息科技有限公司(2007年更名为安徽科大讯飞信息科技股份有限公司,下称“科大讯飞”)进入了沈康麒的视线。他当时非常看好自己公司与科大讯飞的互补性,曾与科大讯飞掌舵人刘庆峰先生多次交谈后,向公司建议收购科大讯飞。然而,这家境外公司因为理念与文化的差异,拒绝了他的建议。今天看来,这个拒绝收购科大讯飞的境外公司与一个千载难逢的黄金机会失之交臂,而这次错过却成全了科大讯飞和时任科大讯飞董事长刘庆峰的一番伟业。

  造化弄人,如果科大讯飞被并购,将同“金耳麦”一样,按照收购者的意愿发展。自称“竞争队友”的王力劭都为科大讯飞感到庆幸,他并不认为科大讯飞与车音网是竞争对手,而是“竞争队友”。“这个世界本身就靠竞争这点规律才能做起来的。所以从行业的角度来看,我们很庆幸,讯飞也扛过来了。这个行业里没有多少旅伴,多些人一起往前跑实际上更踏实。”

  沈康麒的“金耳麦”面临的境况却和科大讯飞不同。在他看来,他当时所拥有的中文语音识别技术已经是国内领先,但是,通过寻找强大的合作者来快速实现扩张以期早日形成语音识别应用市场规模化的思路却并不尽如人意。这次并入国外大公司的抉择并未能够帮助沈康麒实现愿望。

  此后的“蜜月磨合期”,两种理念、两种文化慢慢产生了不可调和的冲突。沈康麒的团队希望让研发更多考虑实用性,贴近用户的需求和行业的应用。然而,这家境外公司当时手握巨额风投,却执意把语音识别的技术和引擎开发全部转向境外研发,且对于研发内容未来的商业应用价值并未考虑清楚,对于国内市场的语音应用趋势也没有深入关注,因此也就并未理会沈康麒的多次呼吁。而在市场发展方向上,由于文化差异难以融合,这家境外公司把持着当时水平最高的语音识别技术却开始出现了水土不服的现象。

  由于赶上了“CTI(计算机电话集成)时代”,许、庞两位大师同在一个涉及核心部分的团队,一个在做IVR(互动式语音问答),一个在做语音识别,都是偏CTI的方向。而王力劭所在的团队,则因公司研发策略的变化,被分化到去做重复性的工作,如应用软件封装等等,原本很强的团队战斗力越来越弱,沈的话语权也越来越小。2002年,王力劭向当时已然被架空权力的沈康麒告别,开始了八年的独自闯荡。

  沈康麒决定再等等,到了2006年,他终于发现,在这家公司,他的很多理念不但没有加速实现,反而向着反方向渐行渐远。眼看科大讯飞稳步发展,沈康麒坚信自己曾经的判断是正确的,他不愿认输,毅然决定放弃一份很高的薪水,从那家公司辞去中国公司CFO的职位,坚定地破釜沉舟,重头再来。

  一口气争出车音网

  车务服务对现在的中国人来说仍是一个新东西,喜欢追逐新潮事物的沈康麒发现车载环境非常适合做语音识别,掂量一下自己的资本——多年的原始语料积累和几名核心骨干的追随,沈康麒从这家合资公司撤出了。

  跟着沈康麒一起出来的是曾辉、“庞大师”以及几个“金耳麦”的老人。筹划新公司之前的一年多,他们过得异常艰苦。沈康麒给所有跟他出来的人定了薪金,但是长达一年的时间里,他没有付给他们钱,全部约定欠薪。即便如此,他的资金仍然断了好几次。扎根在多媒体及通信研发领域的王力劭和远赴海外的“许大师”也在工作之余,经常隔山跨海地帮沈康麒改写原有引擎、提供架构方案。“当时没觉得他能成功,就是觉得他不容易。”王力劭眼中的沈老板颇具传奇色彩,“他就有这样一种魅力。有人说纯爷们儿是终生追逐财富,但视财富如粪土的人。他有点儿像。”

  2007年开始,沈康麒看时机成熟,四处筹集资金,包括借钱、寻求朋友帮助。凭着“沈老板仗义”这句口碑,很多朋友对他伸出援助之手。同时他破釜沉舟地变卖了自己所有的股份、别墅、两部高档轿车,在2008年的时候筹集到了1000万元的启动资金,车音网诞生了。经济和精神压力极度紧张之时,沈康麒的妻子在还有一星期到预产期的时候,手头只剩百十来块钱。

  2010年6月底,车音网与中国联合网络通信集团有限公司及中央人民广播电台签订合约,在汽车语音服务中进行主要基于3G网络的合作。在北京、上海、广州、深圳等城市和地方,车音网已经拥有4万用户。而多家国际顶级车厂纷纷向车音网抛出橄榄枝,预计在6月份前后,车音网将让中国的技术历史性地出现在进口高档轿车上。

  车音网在电信运营商如中国联通(5.62,-0.04,-0.71%)的3G通信网络内再单独组网,用户可以在使用车音网拨打电话时而免交话费。用户的手机通过蓝牙与方向盘后一个按钮连接,按下按钮自动拨号。基于每一处租赁的数据中心的云平台,用户通过车音网的智能辅助驾驶系统实现语音呼叫、点播音乐等功能。

  尽管很多人对于车务服务,即音译过来的“特马服务”(Telematics)比较陌生,但是从目前中国汽车市场的增长速度和移动互联网的普及趋势来看,车载语音识别的市场将非常广阔。正因如此,国内、国际的顶尖风投公司都对这个行业趋之若鹜。车音网因此也处于一个自身发展的非常敏感、脆弱的时期。如何分配投资结构和保持正确的发展方向将是沈康麒等人面临的一大难题。同时,站在车音网的立场,王力劭希望有更多的企业参与到行业中。“没有水,鱼再大活不了。”

  选择在具体的某一条细分行业中,比如汽车行业中发展规模商用,或将成为车音网的一次正确决策。从金耳麦时代起,以“庞大师”为首的“后腰”苦力们,在全国各地不同的环境里用不同的录音方式,收集不同口音的语料。每位帮助他们录音并达到要求的路人被支付10元钱作为回报,这项工作持续到车音网的车载语音识别系统运营。此时,每天已有大量的语料汇入系统。“大师们”要做的是完善现有系统以及在此基础上进一步研发语义分析等更高端的领域。

  “后金耳麦时代”,Nuance的发展模式一直是沈康麒所在团队分析和学习的,时至今日,沈康麒凭借一口气做出了车音网,多少受到了Nuance的影响。而在国内市场未成形的今天,远未达到饱和、竞争程度的语音应用市场还有很大空间,需要更多同行走进来,把蛋糕做大。

  让语音世界“开源”

  苹果创始人乔布斯所赋予几千万iPhone粉丝的是什么?是一个平台。当足够多的用户欣赏它的结构时,在乔老爷子提供的商业模式下,大量的开发者让iPhone的应用数不胜数。正所谓一流的企业做标准,二流的企业做服务,三流的企业才卖产品。乔布斯就是这样引领了产业的标准,智能手机的市场做得越大,这样的标准就越值钱,处在最上层的乔布斯实际上拿到的钱更多。

  乔布斯不会选择一个荒芜的产业去制定他的标准,这个机会留给了刘庆峰,也留给了沈康麒。国内外顶级风投对语音识别的看好,多少是这个荒芜的产业向肥沃转变的前兆。沈康麒作为站在产业前端的一份子,在车载语音识别这块地上,已经收获不小。最实在的当属他对用户需求的把握。对车音网4万用户的统计表明,约70%的用户是女性,年龄普遍在20~35岁之间,所拥有轿车的价位主要集中在10万~30万元。有了这些经验,沈康麒手中的资源,从研发到产业模式,将会更加有的放矢。这也是支撑他在2010年12月的特马高峰论坛上所说“明年会有30万用户接入我们的平台”的后盾。

  但是5年之后又会怎样呢?市场再大也会有饱和的一天,当这个模式被认可时,一夜之间便可以有无数同类企业加入竞争,2004年、2005年的SP乱象就是一个前例。不止一次地被证明,从最流行的电子产品iPhone,到名牌球鞋,从高精尖的科学技术,到顶级的经营理念,用超常的模仿能力弥补匮乏的创造力,乃众多中国商人所长。在此之前的一句话换一个说法就是,低级的模仿者模仿产品,中级的模仿者模仿产业模式,而高级的模仿者模仿乔布斯。“我们很希望在语音这个层面上,做中国乔布斯。这是个梦想,也是个大话,但是我的路子要这么走。”王力劭的话掷地有声。

  对于这样的“大话”,车音网最基础的依仗来自于对商用级的语音平台的积累。目前车音网在运营的车载语音平台,不论是和联通还是和移动合作的,只是在车联网领域的范例。毫无疑问,车音网将在车联网领域持续深耕,而他们很多正在和将要进行的各种高端的研发,很可能和一个用于语音产业的普适云平台有关。这个云平台将在银行、金融、教育等各行各业中适用,并将租赁给行业下端,由不同的行业发展出适合自身的商业模式及应用。王力劭说起这个新构想,显得神采奕奕:“我将用一个极低的成本,让门槛很高的语音技术平民化,然后用规模效应,用云计算本身有的模式,去获取我在上端那一块。盈利对一个公司是必须的,但繁荣语音市场也是我们的使命。”他甚至设想今后在车联网领域引进诸多类似的合作商,这些合作商选择的运营商和平台可能不同,但是他们手中的武器则都是他这个语音云平台。通过语音平台加上诸多参与者的无限创造力,百花齐放地构建更多的应用模式。

  王力劭对于这个想法的坦诚,源自他的寂寞。毕竟语音产业人丁稀薄,这对所有人都是一种风险。只有在产业壮大之后车音网的平台开放策略才有可能实现。王力劭表示,实现这个开放的目标将会用去3~5年时间。

  相比于车音网的纵深行业积累优势,“竞争队友”科大讯飞的长期研发优势似乎让他们看起来同样非常适合这一经营模式。也许,5年后的车音网实现了他们的梦想,而科大讯飞也会成为车音网对面的Android?而对沈康麒等人来说,10年的语料积累,两次重大抉择中打磨出来的商业模式和他们为这个商业模式所付出的代价,让他们有充足的自信和理由向“竞争队友”们张开怀抱,合作式竞争。

《中国经济和信息化》杂志



相关阅读:
英立讯前置IVR系统优势分析与在农行的应用 2011-04-28
企业采用自助IVR应用程序节约成本 2011-04-26
语音识别技术:让你的智能手机更聪明 2011-03-31
多人手机游戏:可爱多的手机互动营销案例 2011-03-23
客服智能手机终端移动工单系统的设计与应用 2011-03-16

热点专题:  语音合成TTS 语音识别ASR  
分类信息:  CTI文摘_与_CTI平台技术  交通_与_CTI平台技术