联想语音：基于U-Net的语音端点检测系统 -

QQ MESSENGER:

E-mail:

TEL:010-58867000

新闻中心/NEWS

联想语音：基于U-Net的语音端点检测系统
2021-10-25 16:56:03

联想研究院语音团队参加了Interspeech 2021无畏脚步挑战赛Fearless Steps Challenge: Phase III（简称FSC）中语音端点检测（Speech Activity Detection, SAD）子赛道，获得国际第二名。端点检测，也称语音活动检测，其目标是自动检测出音频数据中有效语音片段的起始时间和结束时间，这一技术常常应用于通话系统和语音识别系统，可以减少系统传输数据量和运算负担，尤其作为语音识别任务的前置模块，VAD给出的准确时间戳信息可以有效改善语音识别准确率。

数据

Fearless Steps Challenge是国际语音科技盛会Interspeech 2021设立的比赛之一，这项比赛由德州大学达拉斯分校的鲁棒语音研究中心于2019年创立，注重于对大数据语料库的数字化、恢复和差异化处理，以及开发从这些大数据中提取有效信息的算法。第一届比赛注重于在资源较少的情况下开发无监督或半监督的语音语言系统，第二届比赛注重于开发监督学习系统，而本次比赛注重于开发单通道监督学习系统，同时要能够在不同通道和数据上保证通用性。本次联想研究院语音团队主攻语音端点检测子赛道。
无畏挑战赛中的数据基于人类第一次登月任务--- 阿波罗11号登月真实通讯语音数据，包括从发射到返回地球各阶段、3位宇航员和29个负责不同任务的站点之间的通讯语音，这些录音中包含了大量的背景噪音，且信噪比随着信道、时间的变化在0到20dB之间不断变化，这相比于普通日常环境中的声音具有更大的挑战性。

方案介绍

联想语音团队采用了基于U-Net的网络结构和谱增强（SpecAugment）策略，并辅以隐马尔柯夫模型（Hidden Markov Model, HMM）进行平滑，整体流程如图1所示。主要环节包括数据预处理、数据增广、模型预测和后处理平滑。

1) 数据预处理：在这一阶段，原始声音通过分帧、加窗、傅里叶变换得到短时傅里叶变换特征（Short-Time Fourier Transform, STFT）。
2) 数据增广：比赛提供了60h训练数据，我们采用了SpecAugment方法来对从训练数据中提取得到的STFT特征进行随机的频率掩蔽，以增加训练集数据的多样性，提高模型鲁棒性。
3) 模型结构：U-Net是图像分割领域的成熟方案，对于边界检测有很好的效果，将其应用于语音活动检测领域，依然表现出很好的性能。
4) 后处理平滑：在模型预测出检测结果后，通过HMM平滑能够得到更准确的结果。

系统性能

对于端点检测任务通常采用检测代价损失函数（Detection Cost Function，DCF）指标来评估系统性能，DCF是误报率（False Positive, FP）和漏检率（False Negative, FN）的加权平均，具体计算方法为：

表中给出在比赛提供的开发集Dev和测试集Eval上系统最终性能。在只使用U-Net模型的情况下，系统已经能够获得良好的性能，通过SpecAugment和HMM的进一步优化，最终在Eval数据上获得了1.915的DCF，取得第二名。

作为联想智能语音技术核心研发团队，联想研究院人工智能实验室语音团队已经构建了全链语音核心技术栈，全面赋能智能设备、智能化服务和行业智能解决方案。

联想研究院

主营：联想研究院一直致力于推动IT、计算机领域和智能设备和服务的技术发展，为联想的众多高科技产品和服务注...