您当前的位置是:  首页 > 新闻 > 国内 >
 首页 > 新闻 > 国内 >

语音人福音:你和我的区别可能只差一个1400小时开源数据集

2019-03-04 09:31:03   作者:吴宇   来源:语音杂谈微信公众号   评论:0  点击:


  Mozilla昨日发布了语音识别数据集,称为Common Voice。该数据集由18种不同的语言(包括英语,法语,德语,普通话,威尔士语,卡比尔等)组成,并增加了来自42,000多名贡献者的约1,400小时录制的语音片段。 
  从体量上来看它可以算的上是同类项目中最大的多语言数据集之一,对比之前发布的Common Voice语料库数据集,20,000个人的近40万个录音(500小时语音数据),其提升效果也是十分显着。
  当然这也得益于Mozilla从18年6月宣布为了使Common Voice更具全球性和包容性。使用多语言支持,通过Common Voice网站和移动应用,短短8个月从22种语言开展数据收集到目前共有70多个语言的数据收集工作正在进行中。
  语音技术对于人工智能的重要性不言而喻,但无奈的是,目前语音技术资源的话语权却牢牢的掌握在大型科技公司。
  首先目前行业内普遍认为语音将成为下一个重要的技术平台,近年来随着人工智能理论与技术的迅猛发展,语音识别技术在不断突破,通过语音助手如Alexa、GoogleAssistant、Siri和Cortana,各公司将收集到的用户语音数据归为公司自己所有。
  其次这些数据的价值或许目前很难被外界看出来,但是在信息化高度发达,特别是今天这样一个大数据和人工智能时代,为开发机器学习模型提供语音数据集怎么看都是一件有深远意义的事,这些语音数据的意义会慢慢体现。而最终当它们的价值逐渐显现,人们会发现在这背后亚马逊、谷歌、苹果和微软等公司已经牢牢锁住了语音技术的命门,主导了这场语音市场之争。
  基于此CommonVoice项目就是为了避免这样的事情而诞生的,它的目的是将收集到的语音数据集开源给公众,使得任何人都可以自由使用这些数据集来将语音识别技术智能地构建到各种应用程序和服务中。
  Mozilla首席创新官Katharina Borchert表示:希望用户使用自己的语言甚至方言的时候是可以被机器理解的,但是我们相信这些技术上的接口不应该由少数几家公司控制,他们不能像守门员一样来完全把控语音服务。
  CommonVoice项目的意义与用于打击私人平台的开放许可证项目类似,OpenStreetMap就是一个很好的例子。OpenStreetMap为开发者提供了开放且可自由使用的世界地图,使得开发商不再需要依赖于GoogleMaps这样的竞争对手,不仅降低了成本开销,技术上也不再受到限制。
  总之,虽说目前CommonVoice相较于其他语音数据集还略有不足,比如在数量上,但是其综合多样性、丰富性和质量方面都遥遥领先,但这也给了我们一个想象空间,未来随着时间的推移,其语料库的不断增加,CommonVoice的影响力也会与日俱增,到时候将会被全世界更大范围内的开发者们所关注并受益。
  或许正如Mozilla所设想:未来语音技术的民主化不仅会降低全球创新的障碍,也会让人们获取信息更加便捷。
  地址:https://blog.mozilla.org/blog/2019/02/28/sharing-our-common-voices-mozilla-releases-the-largest-to-date-public-domain-transcribed-voice-dataset/
【免责声明】本文仅代表作者本人观点,与CTI论坛无关。CTI论坛对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

专题

CTI论坛会员企业