您当前的位置是:  首页 > 资讯 > 国内 >
 首页 > 资讯 > 国内 >

2021SLT CSRC数据商业服务|标贝科技提供2800小时儿童ASR数据

2020-11-24 13:43:14   作者:   来源:CTI论坛   评论:0  点击:


  由西北工业大学、清华大学、厦门大学和标贝科技联合主办、中国计算机学会语音对话与听觉专业组支持的IEEESLT2021研讨会旗舰活动-儿童语音识别挑战赛(CSRC)最终排名结果及官方论文于日前重磅发布。CSRC赛事持续近3个月时间,经过激烈竞夺,赛道一前三名由上海交通大学、大连奇辉计算机网络有限公司、网易有道信息技术(北京)有限公司摘得,而赛道二前三名为小米、东芝、同花顺公司获得。荣誉桂冠,实至名归。
  据了解,本次竞赛数据由联合主办方之一的标贝科技全程提供支持,近400小时的高质量成人朗读数据和儿童朗读、对话等参赛数据,分别取自标贝自有5000小时成人中文朗读语音数据库、1800小时的少儿语音对话数据库,充分满足竞赛需要,匹配语音识别模型训练。
  事实上,赛事数据一直是本届SLTCSRC一大吸睛点,让赛事的关注度与参与度随之提升。而儿童语音数据更是厂商的关注点。缘由该数据在智慧教育、早教产品、智能音箱等众多语音交互场景中有着广泛应用基础。但儿童语言因其声线与吐字等原因,语音和语言特性不同于成人,有着天然的技术辨别难度。并且在训练过程中,如果没有覆盖大量带有标签的儿童语音,儿童的ASR的准确性仍明显低于成年人。因而,高质量儿童ASR数据的重要性不言而喻。
  从本次赛事报名情况来看,2021SLTCSRC共吸引了近60家来自全球不同地区的高校、科研机构与厂商报名,覆盖中国大陆和香港、美国、新加坡、爱尔尼亚等地区,其中国内厂商参赛队伍不乏像爱奇艺、小米、网易、华为、马上金融等业内熟知厂商,而国内高校和科研机构汇聚了清华、浙大、上海交大、中科院自动化研究所等。本届CSRC竞赛受到了以上机构和厂商的积极参与,但仍有部分队伍未能如期报名,表示希望有机会再次参赛,应用数据做研究。
  另外,本次赛事数据的价值还体现在了本届SLTCSRC论文方面。截至目前,基于标贝科技提供的儿童语音识别数据,已有包括SLT官方、小米、CUHK(香港中文大学)等机构发表学术论文。论文的发布不仅代表着当前业内极高的学术水平,更为从业者提供专业参考指南。
  本届SLTCSRC竞赛结果和论文已揭晓,但行业对数据的需求却未停止。为更好地推动儿童语音产品研发,标贝科技针对本次未能参赛以及对儿童ASR数据有更多需求的伙伴,特此提供以下2套特定价格的数据产品
  1、CSRC数据
  成人朗读数据340小时有效时长
  儿童朗读数据28小时有效时长
  儿童对话数据29小时小时有效时长
  2、标贝科技儿童语音识别数据集
  儿童中文语音数据库有效时长1800小时
  儿童英文语音数据库有效时长500小时
  儿童中英文语音数据库有效时长500小时
  欢迎对以上数据感兴趣的行业伙伴,与我们联系
  邮箱:marketing@data-baker.com
  标贝科技官网数据首页:https://www.data-baker.com/#/data/index/distinguish
【免责声明】本文仅代表作者本人观点,与CTI论坛无关。CTI论坛对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

专题

CTI论坛会员企业