全球最大多领域中文语音识别数据集 WenetSpeech 正式发布并开放下载

　　日前，西北工业大学音频语音和语言处理研究组(ASLPLab)、出门问问、希尔贝壳联合发布1万小时多领域中文语音识别数据集WenetSpeech，在腾讯会议天籁实验室、华为升思MindSpore、西安未来人工智能计算中心等机构大力支持下，该数据集目前已经开放下载。

　　数据申请入口:

　　https://wenet-e2e.github.io/WenetSpeech/

　　目前该工作已经投稿语音研究顶级会议ICASSP2022，详见：

　　https://arxiv.org/pdf/2110.03370.pdf

　　WenetSpeech介绍

　　近十年以来，在深度学习的推动下，语音识别技术和应用均取得了突飞猛进的发展，搭载语音识别技术的相关产品和服务，诸如语音搜索、语音输入法、智能音箱、智能电视、智能穿戴、智能客服、机器人等已经广泛应用到我们生活的方方面面。但在现有的中文语音识别研究中，由于开源中文语音数据集数据量少，场景单一，缺乏挑战性，不能反映研究模型在大数据量和复杂场景下的泛化能力，例如，当前最大的中文普通话开源数据集AIShell-2，包含1000小时的朗读风格录制数据，主流识别系统在该数据的测试集上获得的错误率低至5.3%左右。工业界往往使用更大规模的内部数据进行研究，而学术界无法获取这些数据进行研究，这导致了中文语音识别研究在学术界和工业界的严重割裂。另一方面，当下研究的热点无监督学习和自学习，在中文语音识别领域，也缺乏公开标准的大数据集的支持。

　　今年以来，Facebook发布面向监督学习的5万小时的英文audiobook数据集Multilingual LibriSpeech；SpeechColab发布1万小时的多领域英文数据集GigaSpeech。受这些工作的启发，同时中文语音识别研究也迫切需要一个标准的大规模多领域的数据集，为此我们设计开发了WenetSpeech数据集。

　　WenetSpeech除了含有10000+小时的高质量标注数据之外，还包括2400+小时弱标注数据和22400+小时的总音频，覆盖各种互联网音视频、噪声背景条件、讲话方式，来源领域包括有声书、解说、纪录片、电视剧、访谈、新闻、朗读、演讲、综艺和其他等10大场景，领域详细统计数据如下图所示。

　　数据收集

　　WenetSpeech所有的数据均来源于网络，其中三分之二的数据来自Youtube，三分之一来自Podcast。

　　对于Youtube数据，我们人工选择含有嵌入式硬字幕（字幕嵌入在视频流中，非外挂字幕）的视频资源，并构建了如下图的基于OCR的系统进行数据挖掘，流程如下：

　　文本检测，在当前视频帧上进行文本检测。

　　字幕位置校验，判断检测到的文本区域是否为合法的字幕区域。

　　字幕切换检测，已得到字幕位置和区域，在连续的视频帧上对该区域进行检测，直至该区域的字幕变化为止，得到字幕的起始和结束时间。

　　文本识别，将字幕区域进行OCR识别，得到文本。

　　将3中对应时间的音频提取出来，结合4中的文本，即得到字幕文本和该文本对应的音频，也就是语音识别训练中所需的文本和语音的候选平行数据。

　　下图中给出该OCR系统在不同场景下的几个典型示例。图中绿色的框为检测到的所有文字区域，红色的框为判定为字幕的文字区域，红色框上方的文本为OCR的识别结果。可以看到，该系统正确的判定了字幕区域，并准确的识别了字幕文本，同时经过我们测试，发现该系统也可以准确判定字幕的起始和结束时间。

　　对于Podcast数据，我们使用国内最好的商业语音识别系统之一，对Podcast数据进行切分，并生成切分后音频和其所对应的文本作为候选平行数据。

　　数据校验

　　OCR字幕识别和ASR语音转写生成的候选平行数据中不可避免的存在一些错误，如人工字幕本身有错误，字幕时间不准，OCR识别错误，转写错误等。为了检测该错误，WenetSpeech中提出一种基于端到端的自动标注错误检测算法，如下图所示。该算法首先根据候选平行数据的文本(ref)构建一个一个强制对齐图，该图中允许在任意位置进行删除、插入和替换操作。然后将候选平行数据的语音输入到该图进行解码得到识别结果(hyp)，最终计算ref和hyp的编辑距离并做归一化从而得到该候选平行数据的置信度。当候选语音和文本一致性高时，ref和hyp一致性高，置信度高，反之，当候选语音和文本一致性低时，置信度低。

　　WenetSpeech中选取置信度>=95%的数据作为高质量标注数据，选取置信度在0.6和0.95之间的数据作为弱监督数据。关于该算法的详细内容，请参考我们的论文。

　　排行榜

　　除了训练中校验用途的Dev集外，我们还设计了两个人工精标测试集，互联网测试集Test_Net和会议测试集Test_Meeting，作为“匹配”和“不匹配”测试，同时提供三个语音识别主流工具包（Kaldi，ESPNet，WeNet）上搭建的基线系统，方便大家复现。在10000+小时的高质量标注数据上，目前三个系统的语音识别率如下表所示（结果为MER%，中文算字错误，英文算词错误）。

　　WenetSpeech 2.0

　　虽然WenetSpeech将开源中文语音识别训练数据规模提升到一个新的高度，然而我们希望进一步进行扩展和完善：

　　从领域角度，现有数据集在口音、中英文混合、会议、远场、教育、电话、语音助手等场景仍覆盖不足。

　　从数据量角度，现有的2万+小时的总数据，对于无监督学习仍然远远不够。

　　因此，WenetSpeech在设计之初，就考虑到了未来做进一步扩展。目前我们已经开始WenetSpeech 2.0的工作，并且在2.0中，我们希望更多的行业机构和开发者能参与进来，能够集行业之力更好、更快的去做一个更大更泛化的数据集，从而进一步反哺和造福整个行业。如果您或者您的机构有兴趣和意愿参与WenetSpeech 2.0的数据合作，请微信或者邮箱联系以下作者（非诚勿扰）。

　　致谢

　　感谢西北工业大学、出门问问、希尔贝壳、腾讯会议天籁实验室、华为升思MindSpore、西安未来人工智能计算中心对该工作的支持；感谢WenetSpeech团队的各位小伙伴夜以继日的努力；感谢都家宇和陈果果对该工作提出的宝贵意见。

评论排行

推荐阅读

专题

大家都在看

CTI论坛会员企业