Google应用神经网络开发音频编码器，不只压缩音频还能抑制噪音

　　SoundStream是第一个神经音频解编码器，模型能够同时压缩音频并降低噪音，可在低位元率运作良好

　　Google发表最新将人工智慧应用在音频解编码器的研究，释出端到端神经解编码器SoundStream，这是一个应用神经网络的音频解编码器，可以提供高音质的音频，并且支援清楚的语音、有杂音和回声的语音，甚至是混杂音乐、语音和环境音的音频，Google提到，SoundStream是第一个可以处理语音和音乐的神经网络解编码器，可以在智慧型手机上即时执行。

　　音频解编码器用于有效率地压缩音频，以减少储存和网络频宽需求，而理想的情况，音频解编码器的存在，应该要让使用者无感，包括无法察觉解码後的音频，与原始音频间存在差异，而且解编码的过程，也不能产生可察觉的延迟。

　　市面上以及Google的各种影音服务，大量使用了音频解编码器，像是Opus和增强型语音服务（Enhanced Voice Services，EVS）。Opus是一种多功能语音和音频解编码器，支援从6 kbps到510 kbps的位元率，已经被Google用于视频会议平台Meet，还有串流媒体服务YouTube等应用程式中。而EVS则是3GPP标准化机构所开发，是针对行动电话所开发的解编码器，和Opus相同，是能够处理多种位元率的多功能解编码器。

　　这两种解编码器虽然可以在中低位元率中表现出色，但是在极低位元率，像是小於等於3 kbps的情况，音质就会急转直下，Google提到，过去人类利用专业知识，以及增加压缩演算法的效率，来最佳化音频的处理，但最近研究人员开始使用机器学习来代替人工设计，以资料驱动的方法学习解编码音频。

　　Google发布最新的端到端神经解编码器SoundStream，其主要技术便是使用神经网络，由编码器、解码器和量化器组合而成，所有这些都经过端到端训练。编码器会将输入的音频，串流为编码讯号，接着使用量化器对其进行压缩，并且使用解码器将信号转换回音频。

　　研究人员提到，SoundStream使用了神经音频合成领域中，目前最先进的解决方案，透过训练判别器（Discriminator），计算对抗性和重建损失函式的组合，让重建的音频听起来就像是未压缩的原始音频，进而提供高品质音频输出。

　　经过训练後，解码器和编码器可以分别在单独的客户端运作，以提高网络传输高品质音频的效率。SoundStream处理音频的效率非常好，特别是在低位元率的情况，研究人员解释，SoundStream使用3 kbps位元率所提供的音频品质，超过使用12 kbps位元率的Opus，以及9.6 kbps的EVS，位元率是这些解编码器的三分之一到四分之一，这代表SoundStream可以使用更小的频宽，提供类似的音频品质。

　　在早前，Google发表了基于回归网络的Lyra音频解编码器，而与SoundStream比起来，SoundStream仍然优于Lyra当前的版本，研究人员也提到，在传统音频处理工作管线中，压缩和增强使用不同模组进行，但这样的方法会增加系统延迟。而Google采取不同的策略，将压缩和增强功能综合在同一个模型中，能够同时进行压缩和背景降噪，但又不增加延迟。

　　Google表示，SoundStream是将机器学习技术，应用在音频解编码器中重要的一步，比目前最先进的解编码器Opus和EVS效果更好，而且只需要部署一个可扩展的模型。SoundStream会与下一版本的Lyra一起发布，藉由整合SoundStream与Lyra，开发人员可以利用现有的Lyra API和工具，来提供更好的音质。

专题

InfoComm China 2021: 北京InfoComm China 2021已于上周五（7月23日）正式落...[详细]

变革时代联络中心...: 　　该系列文章探讨了推动变革的趋势，回顾了当今联络中...[详细]

2021中国呼叫中心...: 2021中国呼叫中心及企业通信大会 4月15日中国·北京 ...[详细]

华为全联接2020: 华为第五届HUAWEI CONNECT大会在上海举办。[详细]

评论排行

推荐阅读

专题

大家都在看

CTI论坛会员企业