首页   新闻  文摘   行业   产品  技术  厂商  标准  BBS  导航  搜索
呼叫中心 | CRM | 统一通信 | 企业通信 | VoIP | 视像通讯 | 语音应用 | 热点专题
首页>>>技术>>>语音应用>>>语音识别(ASR)  语音识别产品

互联网周刊:当语音识别技术遇到网络视频

李洋 2007/10/30

  当语音识别技术遇到互联网,视频搜索又有了新的可能。

  计算机可以轻松处理文本,但对语音却没那么容易。在过去的20年里,研究人员一直在努力让人和计算机搭上腔。语音识别技术因此变得成熟。现在,你已经可以通过声音来“命令”计算机做一些简单的操作,你所讲的话也能够被顺利地识别为一段文字。而当视频互联网时代到来后,人们对语音技术又有了新的期望。

  随着互联网上音视频文件的不断增多,如何进行准确的检索成为一大难题。目前,大多数搜索引擎的做法是根据视音频文件自带的文字介绍,以及上下文环境来判断;或者通过Web2.0常用的Tag(标签)及朋友的推荐信息来确定视频内容。但这些方式的缺点也像其优点一样显而易见。一旦视频名称或者文字信息不全面,就会使你跟很多精彩内容擦肩而过。

  另一种做法是从内容和视觉方面做文章。比如,微软亚洲研究院华先胜研究员的一项基于内容的视频搜索技术,可以通过训练计算机对内容场景进行学习,从而能够弥补上述的不足,搜索到视频里面去。但这种方法在有些场合也有其局限性。比如,类似《锵锵三人行》的谈话类节目,每期的场景和人物都相对固定,视频内容提供的信息就非常有限了。而对于这类以谈话、评论或播报为主的节目来说,利用语音识别技术针对语音内容进行检索,便成为一种更为有效的方法。

  互联网上的视频、声音质量参差不齐,内容更是包罗万象,如果将传统的语音识别技术直接应用于互联网视频搜索,识别准确性很低(通常只能达到50%~70%),而信息丢失率很高。因此,微软亚洲研究院的余鹏研究员所在的研究小组提出了一项“词格”索引技术。简单来说,这项技术的原理就是在分析语音内容的时候为系统提供多个候选信息。据余鹏介绍,通过实验得出的结论,这一方式可以将准确性提高50%~150%。

  举个例子。当我们识别“欢迎来到微软研究院”这样一段语音片段时,系统将会提供多个候选信息,“欢迎”可能是“幻影”,“来到”可能是“来道”,“微软”也有可能是“未来”,“研究院”也可以分解产生“烟酒业”、“洋酒”、“眼镜院”等多种候选信息。

  被识别出的每个短词都带有起止的时间信息作为标识这一词的节点。时间点接近的短词便可以连接为一句话。比如上面的例子,除了出现正确的答案外,还可能会出现“幻影来到未来烟酒业”等多种可能的候选。

  看到这里你可能会问:“在如此多的候选句子中,系统会优先选择哪个识别结果呢?”实际上,对于每个识别出的短词,这项技术还配有一个代表置信度的得分。而这个得分来自系统的概率统计,代表该词成立的可能性。系统有“声音”和“语言”两个模型,分别从发声和人类语言习惯的角度来对计算机进行训练,使之可以在识别时做出基于概率统计的判断。

  如此一来,丢失率的问题便获得了很好的解决。同时,通过对时间节点接近的多候选信息采用类似“合并同类项”等优化方法,可以剔除大批的冗余信息,从而可最终获得较高的准确性和搜索效率。

  而你能想象这项技术带来的便捷吗?你将再也不用花时间点击每个视频文件了—当你输入一个关键词,比如“北京奥运会”,系统给出的每个搜索结果中都会实时列出包含关键字的上下文。你可以以此来确认内容,也可以直接点击其中标粗的关键字,位于搜索页面右边的播放器便会自动转到相关内容进行播放。还记得上面提到的时间节点吗?对,它存在的另一个意义便在于此。而你甚至还能从每个结果下方的音频条,形象地了解这一关键词在这段视频中出现的位置和频率。

互联网周刊


发表评论


  ·Aspect中规模企业联络中心解决方案研讨会 [7月16-24日 北京 上海]
  ·“呼动中国”:东进技术多媒体呼叫中心招募增值渠道合作伙伴
  ·招聘:上海宝东 东进通讯 亿迅(中国) 亿博科创 信普飞科 正音科技

  ·《2007中国企业通信(呼叫中心)市场研究报告》出版  
  ·最新资料:《企业呼叫中心建设指南》 《企业通信案例及方案大全》
  ·免费索取:《多媒体交换机资料》   《IP、无线和视频方案》

  ·讯飞新一代语音合成系统Interphonic5.0强势推出
  ·IP分布式呼叫中心在各行业应用
  ·"CTstage 5i"客户联络中心系统--适用大规模分散网点

            


企业会员
恒生电子 恒融数码 Nuance
一维天地 新太科技 敏迪网络
加入办法 ->





CTI论坛推荐
·三友亚星:上海红孩子电话营销和客服系统
·什么是IP分布式呼叫中心
·北京网音:助力企业通讯系统平滑升级
·讯飞ViviVoice开启语音娱乐新时代(TTS演示)
·东进技术:Seegoe Enterprise/Office呼叫中心
·HXD09可编程智能语音交换机
·大幅度砍掉大容量呼叫中心的成本
·新太科技成功中标康佳集团呼叫中心项目
   
相关链接
CTI论坛周刊 融合通信专栏
行业案例汇编 免费发布新闻
管理员俱乐部 服务与营销论坛

热 点 专 栏
|业界新闻|论坛文摘|行业应用|产品展示|技术天地|厂商汇总|免责声明|咨询服务|公司简介|联系方法|广告服务|企业会员|

编辑投稿信箱      如何查找厂商联系方法

电话:010-82012787,82079677   传真:010-62041062
呼叫中心建设及运营管理咨询服务:优胜资讯(010)87768798 87768726