首页 > 新闻 > 国内 >

语音技术应用在崛起:云知声的倒推式商业逻辑

2015-03-17 10:17:02   作者:魏雅晴   来源:21世纪经济报道   评论:0  点击:


  云知声是伴随着阿里巴巴、乐视的“互联网汽车”概念而逐渐浮出水面的。这家成立仅2年多的创业公司,是隐藏在阿里Yun OS车载操作系统和乐视LeUI Auto背后的语音技术提供商,在乐视造车之后,我们将“互联网造车”的系列报道定格在一家近几年崛起最快的语音识别公司——云之声。

  少女听到他的话,猫咪哒哒的跑过雪地,老人晒着暖呼吸吐纳……常规之下,这些赋上心意的声音,与你所听到的表达,一起被称作“沟通”。

  而在现如今的商业世界,如常的言语往来不止是感性的细腻,它为商业拓展出更多逻辑的种类,也尝试链接不同的交互载体。

  云知声就是这样一家公司,它穿着隐身衣,住在你能想到的软、硬件载体中,以声音为介质,以命令为输出,将一个个抽象的韵母、声母拆解,合成为一条条具体的动作指示。

  云知声是伴随着阿里巴巴、乐视的“互联网汽车”概念而逐渐浮出水面的。这家成立仅2年多的创业公司,是隐藏在阿里Yun OS车载操作系统和乐视LeUI Auto背后的语音技术提供商,在2013年获得启明创投的1 亿元A 轮融资之后,又在2014年年底获得挚信等5000万美元B轮融资,刷新了语音行业融资纪录,成为近几年崛起速度最快的语音识别公司。

  云知声的倒推逻辑

  相比于阿里、联想、英特尔、中兴、乐视、通用汽车、小米、锤子等客户,云知声像是一个静默的解语者,这种“躲”在背后的静默恰好应了云知声的产品特点:虽然技术加载,却因为只是输入输出载体,所以无法具象地被用户感知。甚至在业已实现可能的案例中,被无意识地忽略。

  把这样的忽略放至大环境下的整体路径,同样能找到痕迹。语音交互经历过寒冬,从系统稳定性、响应速度、语音识别效率等维度判断,语音交互行为本身所带来的交互体验并不能引起足够多的正向讨论。即使是苹果Siri,也并没有如想象中那样普及开来。

  云知声CEO黄伟是国内最早从事语音识别技术的少壮派代表,曾任职于Motorola中国研究中心和世界最大的语音公司Nuance,并开发出世界第一款手机声纹认证系统,加盟盛大后一手创建了语音分院。在十余年的语音从业经验中,他认为Siri对他的第一个启示是用一个有限的人工智能去解决非常开放的需求是一个伪命题。如果把Siri定位为语音助理,用户就会觉得应该什么都懂,但人的需求是千变万化的,一旦做不到就会失去用户。

  第二个启示是语音技术必须搭载服务。人们使用语音的最终需求是机器完成整个操作,比如说导航,不仅是听懂目的地,还需要完成路径规划,如果目的地是一个餐馆,甚至可以实现在线下单。这考验的是资源整合能力。

  “从技术和需求两个角度,我们认为理想的方式是什么?不要大而全,而是垂直领域切入。”这也成为云知声与擅长TTS的科大讯飞,以及擅长多国语言识别的Nuance等传统语音巨头竞争的差异所在。

  2011年,腾讯推出即时通讯服务的免费应用程序——微信。智能手机作为第一波普及的硬件载体,彻底打破人们对沟通场景、对象、方式的固有模式,用户需求的移动性、细分化也催生着语音的场景垂直。智能家居、车载、可穿戴设备、在线教育、智能客服等,每一个领域都可以延伸出语音的被需要。怎样在新兴领域开辟语音入口?怎样判断需求的真伪、做定制化差异?怎样让人们变得更懒却也更互动?

  如果说老东家Nuance的工作经历是告诉黄伟如何用一套普适性强的引擎体系适应全球化的产品占领,那么云知声想要做的是一个倒推逻辑:根据不同的载体形式,定制需求、深度开发。2012年,云知声成立仅三个月后就推出了面向开发者的免费语音云平台。这是一个完全逆着来的形式,相比语音界同行,黄伟认为:“2012年,用户根本没有习惯用语音。这说明你自身价值还远未形成,如果这个时候着急收费,无异于是扼杀行业。”

  可是,估计很少人知道,2011年底辞职后就开始筹备项目的黄伟,带着十几人的研发团队自负盈亏,到6月份天使轮融资进来之前,半年内几乎花光了积蓄,甚至要靠透支信用卡来发工资。黄伟第一次感觉到了难。“我不能多想,团队的每一个人都不能多想,但凡任何一个人有后顾之忧,这事就成不了。”

  技术创业的特殊就在这,如果没有产品,何谈融资。黄伟聊到一个细节,天使轮融资在团队几乎断粮的关键节点进来,“我们不是等钱到了再做事,而是尽快抓住时间窗口一直往前走。投资人看什么?他会翻看我这大半年的代码有没有增加,我有没有干。”

  一位土博士的产品地图

  说回到云知声逐渐铺设的产品地图,这群自称为“土博士”的创业团队,产品理念不再是单一依靠

  技术的强势打法。用黄伟的话来说,语音交互的整个体系包含“语音识别、语义理解、服务调用”三大板块,如果没有识别单元就不知道用户说了什么,没有理解就不知道用户的意图,而这两者只是完成了人跟设备的一个翻译。“用户跟设备交互的目的是什么?不是为了炫酷,而是我说的话希望得到后面的服务,否则只是一个输入法。”

  从这个角度入手,黄伟从云知声的主动可控层面给出三个评判维度:中文连续语音的准确识别率,云知声做到开放性、全国语量基础上97%的识别率;识别引擎的迅速,做到同行的3-5倍的速率比;语音开放平台的稳定,第一版自2012年9月份推出以来,稳定服务。

  延展出的三大主要业务内容是:以“云、端、芯”为关键字在移动应用、智能硬件等不同领域切入。云知声开放平台为开发者提供语音接口;云知声UniWear是面向可穿戴设备的ROM,旨在降低开发门槛,提供一套完整的软硬件开发方案;语音交互芯片意在智能家居平台,控制家居自动化设备的入口。

  而车载可以看作一个功能非常丰富的智能移动设备,也是云知声下一个重点发力的领域之一。语音、触屏、按钮、体感,交互形式多样且互相配合,而语音作为最自然、最日常的途径,成为人与载体间的密码。但语音产品在车内的市场表现和受众认可似乎踌躇不前,语音作为产品接口,与用户之间隔着一个载体,这也就意味着软、硬件载体的工艺水准、成本考虑、搭载适配等直接且深度影响着语音交互的效果。

  以用户在车内最常用的导航和娱乐功能为例,最新推出的云知声开放平台2.0,除了识别、理解、合成等基本能力,还针对如车载这样的垂直领域做了特别的优化方案,方便用户低成本接入,并提供软硬结合的整套解决方案。黄伟觉得语音识别从实验室阶段到了商业化的临界点,但依然还需要解决很多问题,比如说抗噪性,噪音的干扰,这些都是需要在学术界、工业界不断解决的。但语音在车载领域的应用前景是勿庸置疑的,相关产品的出货量增长也非常快。

  不过这应用上的困境也让团队越来越思考一个问题,仅仅做面向B端的用户群,无法直达消费者,必然存在语音效用的折衷。为什么不自己做一个面向C端用户的语音类助手呢?

  “2015年我们会开始推广自有APP,从小点切入大众化的需求。”黄伟提到一个观点,以语音输入做移动搜索引擎,牵涉到太多对后台资源的调用、整合,不太适合创业公司。云知声要做的,是通过语音对个人设备、个人内容、生活方式等进行助手式管理。

  另一个挑战黄伟的事来自内部,纯技术出身,从中科院、科大研究室走出来的团队,如何调整节奏、适应商业化转型的管理、营收需要,成为2015年必须要搞定落地的事儿。

  一枝独秀不成春,“硬件运算能力、数据积累处理、技术的推算衍进,有这三个要素做依托,我相信未来人工设备的交互一定可以实现,不再是简单的命令控制,不再是冷冰冰的存在。”在提到大环境下语音交互的未来,黄伟语气笃定地用了一连串的“一定”。

  黄伟的自信还在于,经过十几年的发展,虽然语音技术在学术层面上仍然是美国领先,但在应用层面上中国已经不逊于美国。中国人参加几次语音领域的国际评测,与斯坦福、MIT、剑桥、Nuance、IBM、微软、谷歌等同台对垒,已经连续六年三届蝉联第一。

  我们追问了一句:“有没有为什么事情焦虑?”黄伟没有停顿,“我最近就很焦虑,你想做的事情和你现阶段所掌握的资源和能力之间有一个距离。你明明看到机会了,做的却没有那么快。这种焦虑感是如果我再快一点会怎么样?”

  可他心知肚明,现阶段的云知声之所以能够春江水暖,正是因为他们从不冒进地模仿捡食、从不抱残守缺地走到黑,也从不没学会爬先想跑。

分享到: 收藏

专题