首页>>>技术>>>语音应用>>>语音识别(ASR)  语音识别产品

浅析语音识别的移动互联网应用

2010/08/18

  摘要:语音识别技术发展到现在已经达到应用水平,这项技术的推广普及必在移动互联网行业。也许有一天我们可以通过蓝牙耳机直接呼出我们的问题,在通过蓝牙耳机听到我们想得到的答案,而这除了浪费点流量一切都是免费的。

  最早接触的语音识别软件是台湾的赛微,这家公司的语音识别技术在当时已经达到应用的水平。软件本身不错,但是有两个问题:一是对不常用的词语的识别率不高,识别速度一般,占用先相对多的内存;二是市场需求不强烈,因为技术不是非常成熟和市场处于培育期,多数用户只是打着试试的想法试用软件。

  赛微的语音识别技术只是应用于手机本身并不应用于网络搜索,让我们意料之外的是,最早将语音识别技术应用于移动搜索的是歌曲的移动搜索。在这类移动应用中佼佼者要数:midomi和shazam,这两个软件都支持多个手机平台,感兴趣的用户可以下载,注意的是shazam是免费的。

  这类应用的功能和百度即将推出的哼唱搜索是一个概念,用户只需打开软件通过话筒哼唱歌曲或接受播放的音乐,软件根据采集的数据来识别相应的歌曲。原理是采集音频数据,上传数据,核对数据库里类似的音频数据,发送结果到设备。这种技术已经达到非常成熟的水平,识别率达到90%以上甚至更高(这里的识别率只针对标准的唱片音频,每个人的水平参差不齐识别率的标准不好确定)。而且通过这类手机软件产生的流量也很少,一般维持在15k~30k。

  赛微的语音识别技术止步于单纯的手机应用,midomi和shazam等移动终端应用也止步于音乐的在线搜索,而搜索引擎厂商如Google、Bing、还有后面跟进的百度都在大力推进语音识别搜索的网络化。微软的Bing移动版和Google的Google地图等率先实现语音识别技术应用于移动搜索领域,而百度在语音移动搜索这个领域看来也想分一杯羹。

  从已经发布的微软和Google语音搜索应用中我们可以发现,语音搜索离我们的生活还是有一段距离。最大的阻碍还是语音识别率不高,尤其是生词的识别率超低,生词基本不能识别,识别时间较长,占用的内存和CPU较多等。就拿Bing移动版来说,目前只支持英文语音搜索,而像Washington、blog、twitter等这类超常用的词汇识别率很高,识别用时也很短,而比较生僻的词汇用时较长,识别率也很低。我们平时用手机键盘或虚拟键盘只要2~3秒可以完成的输入,在语音搜索这里可能需要多达1分钟才能输入,而且还不一定准确。这就是我们现在语音搜索还不普及的原因,用户要的是效率而不是新颖的噱头。

  个人还是相对看好百度的歌曲哼唱搜索,原因是这方面的语音识别中的音乐搜索技术相对要成熟些,但鉴于每个人哼唱的水平不一,识别率自然天差地别。今年以来,百度开始加强语音识别的投入力度。尤其上个月连续发出启事,招募语音识别的技术带头人、高级工程师和工程师等岗位。并提出能敏锐把握语音识别技术方向,主导开发过应用级别的语音识别系统,四年以上语音方向的研究经验等要求。

  从国内来看,除百度外,盛大也对语音识别技术情有独钟。盛大网络创新院早在去年便静悄悄地组建了中国最强悍的语音识别团队,而且盛大决定对外开放哼唱搜索技术相关源代码,以帮助国内这个领域的研究人员得到分享和帮助。

  音乐搜索只是语音搜索的冰山一角,移动语音搜索才是语音搜索的重头戏。而现在语音搜索技术正在逐渐成熟,语音搜索正在摆脱噱头的头衔走向普及应用。请大家放心,短时间内语音搜索只能是噱头,无聊地时候当噱头在众人前面摆弄下还是游刃有余的。 若干年后,我们的生活可以被“语音”得很科幻。

21世纪网



相关阅读:
再见,潮水退去的裸泳者SP 2010-08-17
移动设备的实时视频将引发车辆工业的技术升级 2010-08-17
马斯洛需求层次理论启示下的移动应用 2010-08-16
电信运营商对手机吸费如何防范? 2010-08-13
手机购买彩票安全吗? 2010-08-09

热点专题:  语音合成TTS 语音识别ASR    移动增值   移动互联网
分类信息:  移动增值_与_移动互联网  移动互联网_与_移动
相关频道:  增值电信文摘