从面向广大英语和普通话听众的测试中发现,WaveNet的表现已经优于现有的语音合成系统,但结果还是略逊于人类真正的语言水平。
目前的语音合成系统只有两种工作方式:第一种是截取实际的讲话录音,然后打碎重组成新的语音——有点像绑架电话惯用的手段;另一种是依赖电脑合成,通过编程生成语音,这意味着它不需要预先录制好语音材料,但是听起来的效果并不好,很像机器人。
另一方面,WaveNet仍然使用真实的语音输入,但通过学习和模仿来合成语音,而不是将其打破重组。项目的研究人员写道:“单单一个WaveNet就能以相同的保真度捕捉记录下各个不同说话者的特点,并且可以任意切换声音。”
同样令人印象深刻的是,它可以利用诸如唇部运动和人工呼吸来模拟语调、情绪和口音。如果这还不够,WaveNet也许还能像钢琴一样弹奏乐曲,研究人员只需提供一些经典片段,它就能创作出自己的作品。
DeepMind在Twitter发文称:“让人类和机器对话是人机交互领域长久以来的梦想”