思必驰语音合成技术，助力 AI 虚拟形象探索声音的价值

　　12月2日～8日，第十届中国国际新媒体短片节在深圳举办。AI数字人「陆川导演」与国内首个AI虚拟偶像「子书美」与观众见面，可实现面对面互动交流，为观众带来打破虚拟空间和现实空间次元壁的实时实感交流互动体验。

　　虚拟形象不仅要看的见，其高辨识度的「嗓音」更是重要的声音名片。值得一提的是，这两位虚拟形象的「造声」，均由思必驰提供的技术支持。

　　其中，AI数字人陆川导演「造声」是基于思必驰神经网络建立的语音合成学习模型，将采集录制的陆川导演本人的音频进行训练学习，合成出了以假乱真的AI数字人陆川导演的声音。

　　与复刻AI数字人陆川导演的嗓音不同，子书美的合成音需要「凭空创造」。思必驰结合子书美形象性格与人设属性，为其量身打造了一款知性优雅的合成音。

　　语音合成技术也是当今国际人机交互领域竞相研究的热门技术之一，合成音的应用极大减少了人力录音的成本，成为了智能机器的标配能力，帮助厂商打造voice-IP。

　　思必驰提供数十种语音合成预设方案作为音色选择，同时还可以对合成音进行大数据深度定制与小数据快速定制服务。

　　此外，关于语音合成的效果，一方面依赖算法模型，另一方面，依赖于用户提供音频语料的质量。因此在音频语料的采集上，建议在安静的环境下进行，说话语速匀速、声音大小适当、音色尽量一致、不要喷麦。语料音频质量越高，合成音效果自然越贴近真实人声。

　　语音合成，好比AI时代的活字印刷术，创建一套合成模型，便可以「印出」你想要的声音。语音合成出的声音，以前所未有的方式改变着信息传播交流的形式。

专题

评论排行