首页 > 新闻 > 专家观点 >

语音识别——车机革命从这里兴起

2013-10-09 16:57:33   作者:   来源:车音网    评论:0  点击:


  “语音识别”作为一场解放双手的革命,几十年来一直备受推崇,但这场革命总是处在不温不火的状态,从电脑到手机,再到如今的车机,“语言识别”一直是叫好不叫座。这样“温水煮青蛙”的状态什么时候才能改变?“语音识别”将是下一个互联网的入口?它会掀起车机领域的变革吗?带着这些疑问,笔者采访了专注人机交互语音识别的企业——车音网首席执行官王力劭。


语音识别——车机革命从这里兴起

  数据采集 提高用户感受度

  “没有任何一种引擎可以说把方言语音识别处理好,这是由人们采集的语音量来决定的。”

  车音网一直致力于人机交互的语音识别系统的研发和推广,而车音网提出的自然语言识别概念一直为外界所津津乐道。何为自然语言识别?通俗的来说就是可以识别人们的日常语言习惯,你讲普通话也好,讲方言也好,系统都能识别出你要表达的意思,这就是在最自然的状态下达到了人机交互的目的。

  方言的语音识别到底准还是不准呢?如何提升用户体验度?王力劭解释说,语音识别还是机器学习技术的一种,因为计算机没有联想能力,它只能按你告诉它的规则去做。所以识别不是完全靠程序来实现的,还要靠采集到的大量同一句话的不同波形,建立庞大的语音信息资源库来实现。在普通话语系里有各种各样的样本,当采集的某一个样本跟之前的声音很像,可能落在之前采集的样本里,系统就能识别这句话。当采集到十万、百万、千万个人说话的样本后,覆盖面就非常广了。作为这方面的先行者,王总又补充道,采集的样本必须分布合理,根据地域、年龄段、性别将其区分。所以采集的样本越多,机器识别的就越准确。

  在方言识别方面,车音网把方言按语系来划分,如广东话、上海话、闽南话等。但是同一语系不同地区的人方言也会有很大的区别,为此王总打了一个比方,就像同样讲英语,北美地区的、非洲地区的和亚洲地区的讲起来的感觉也是不尽相同,所以在采集数据时就要求覆盖面广,一个语系内不同地区的方言都要采集到。而车音网在英语识别方面也采集了很多地区英语口音的样本,这些样本主要来自于东南亚地区。所以王总不无感慨的说:“没有一种引擎可以说自己的方言语音识别处理的好,更多的还要依赖于研究团队采集的语音量。”

  十年磨一剑 成就技术壁垒

  “这三轮数据的采集就是现在车音网的核心,一个公司低下头一直这样踏踏实实地干不是件容易的事。”

  上千万的语音样本采集听起来就是一项持久而艰辛的工作,在这个过程中车音网花费了多少时间、多少精力,这些都是他人不知道的。王力劭说,国外最早出现的语音识别是IBM ViaVoice ,就是一个人对着机器不停地说话,训练机器的次数越多,机器的识别率越高。但是这种方式只针对特定的人,换一个人就不行了。特定的人不需要采集语样,只需要不停地训练就可以了,机器运算相对来说也简单多了。可以说,IBM ViaVoice所带来的不用双手的输入方式,是一场解放双手的革命。车音网做语音识别是从99年开始的,是中国最早一批研究非特定人语音识别技术的企业,那时他们在做模拟推演时发现,即使能够采集来数据,机器也没有那么大的计算能力,服务器性能低下,根本无法进行系统开发,所以决定投入大量的精力进行语音采集。

  语音的采集也不是一件容易的事,当时车音网想到的就是最原始的方法——雇人,全国各地找代表收集语音样本。他们制定了一套采集标准,有明确的区间划分,然后整理了一份大约50句话的脚本。这50句话也是经过了一番研究确定的,正常人在读这50句话时,可以把声音的链接方式、发声规律、特征点概括出来。这个苦力活一直干到2004年,从今天的眼光来看,当年做这件事是一个非常明智的决定。这项工作依靠融资和风投耗费了几千万的资金,但是获得的语音量是非常广的,并且都是按照车音网自己的规范来的。而这一点,如今的多数创业公司已经很难做到了,资金消耗动辄上亿,风投也会更加谨慎评估了。所以说采集的数据也成为车音网语音识别的一个壁垒。

  2001年,车音网开始跟多家电信运营商合作,负责语音点歌、语音查询等,并且上线了一系列电子系统,和一些城市的114也展开了合作,这样他们就可以收集到大量的8K信道的数据,8K数据是最基本电话通道的数据。现在人们很容易收集到16K的声音,如微信等软件,但16k的声音和电话里的不同,所以现在一些公司缺乏8K数据采集的机会, 8K的数据是稀缺的。

分享到: 收藏

专题