Facebook发布高效能完全非监督式语音辨识模型Wav2vec-U

　　Wav2vec-U是FacebookWav2vec语音辨识模型的非监督式版本，完全不需要转录资料，也不用标签资料训练，效能已经与2019年最佳监督式语音辨识模型相当

　　Facebook发表最新的语音辨识技术Wav2vec-U，这是Wav2vec非监督式版本，可以让研究人员不需要将语音转录成文字资料，就可以训练模型的方法，Wav2vec-U的效能已经可媲美几年前，使用1,000小时转录语音资料训练的监督式模型。

　　无论是回答问题还是执行请求，语音辨识技术已经被广泛地应用在各种情境，但现今的语音辨识系统，仅对少数语言友善，研究人员解释，这是因为需要大量的转录音频，才能够训练出高品质的语音辨识系统，但是每种语言、方言或是说话方式并无法轻易的取得这样的资料。

　　因此Facebook开发了Wav2vec-U，这是一种不需要转录资料的语音辨识系统方法，Facebook已经在Swahili和Tatar等语言测试该模型，由於这些语言缺乏大量带有标签的训练资料，因此一直没有高品质的语音辨识模型。

　　Wav2vec-U能纯粹从录制的语音音频和未配对的文字中学习，过程不需要进行任何转录的工作，与过去的自动语音辨识系统相比，Facebook采用了一种新方法，能够从未标记的音频中学习语音结构，结合Wav2vec-U和k-平均演算法，就能将语音分割出各个对应的语音单元，像是把CAT这个词分割成/K/、/AE/和/T/。

　　为了要学习辨识语音中的单词，研究人员训练了由生成网络（Generator）和判别网络（Discriminator）组成的生成对抗网络（GAN），其生成网络使用嵌入在自我监督表示中的每个音频片段，并预测和语言中声音相对符的音位（Phoneme），目的是要试图欺骗判别网络来进行训练，判别网络会评估预测的音位序列是否逼真。最初生成网络产生的结果很差，但是经过判别网络的回馈，生成网络产生的结果会更加准确。

　　研究人员提到，判别网络本身也是一个神经网络，透过将生成网络的输出当做输入，以及来自各种音元化的真实文本，能训练判别网络学会区分由生成网络产生的输出和真实文本。

　　研究人员将Wav2vec-U与其他模型比较，以评估Wav2vec-U的效能，在TIMIT基准测试中，与最佳的非监督式方法相比，Wav2vec-U错误率降低57％，而在更大型的Librispeech基准测试中，Wav2vec-U与基准中历年最佳效能的监督式模型相比（下图），Wav2vec-U在没有任何转录资料训练下，和2019年使用960小时转录资料训练的模型效能不相上下。

　　TIMIT和Librispeech都是用来评估英文系统的基准测试，但英文由於有大量的标签资料集，已经存在极佳的语音辨识技术，而非监督式语音辨识，将对於缺乏标签资料的语言，产生极大的影响。因此研究人员也开始在Swahili、Tatar和Kyrgyz等标签资源匮乏的语言中，研究使用Wav2vec-U。

　　Facebook提到，Wav2vec-U是他们在语音辨识、自我监督学习和非监督式机器翻译上多年的成果，让模型仅透过观察就可以习得解决任务的能力，这项成果将使得语音技术为更多人所用。

专题

变革时代联络中心...: 　　该系列文章探讨了推动变革的趋势，回顾了当今联络中...[详细]

2021中国呼叫中心...: 2021中国呼叫中心及企业通信大会 4月15日中国·北京 ...[详细]

华为全联接2020: 华为第五届HUAWEI CONNECT大会在上海举办。[详细]

2020中国呼叫中心...: 业界瞩目的2020中国呼叫中心及企业通信大会将于7月9日在...[详细]

评论排行

推荐阅读

专题

大家都在看

CTI论坛会员企业