语音识别+歌声合成，思必驰想让普通人“读诗成曲”

　　在小年夜，中央电视台《经典咏流传》第二季节目中出现了一款“读诗成曲”的在线互动小工具，用户仅需要朗读一段诗词，就可以听到用自己声音演唱的经典诗词唱段。那这是怎么实现的呢？

　　原来，“读诗成曲”的背后是思必驰提供的个性化歌声合成算法。歌声合成技术是语音合成（TTS，即Text to Speech)的衍生品，其关键区别在于韵律预测模型不同。在普通TTS系统中，通常有个韵律模型来根据句子的内容和语调环境预测每个音素（音节）的时长和音高曲线。在歌声合成中，这个韵律模型则更换成由乐谱来预测每个音素（音节）的时长和音高的歌曲韵律模型。最终的生成过程仍然跟语音合成类似，将韵律参数和频谱参数结合，生成歌声。

　　在“读诗成曲”中，韵律预测模型可以使得机器根据人说话的语调合成歌曲，且根据唱段的韵律和节奏调整音调，这又是如何实现的呢?思必驰北京研发院院长兼副总裁初敏博士告诉36氪：韵律方面，思必驰在原有歌曲韵律模型的基础上增加了个性化学习技术，结合曲库和名曲唱段的特征生成相应的韵律曲线，使歌曲韵律特征尽量接近名曲唱段的特点；在语调方面，思必驰应用了声学模型的个性化学习技术，使得生成的频谱参数尽量接近用户的声音，通过将接近用户的频谱参数和接近名曲唱段的韵律参数结合，就能生成用户“原声”唱出的“经典”曲调了。

　　36氪注意到，这并非思必驰首次将个性化歌声合成技术运用于泛娱乐领域，此前在央视节目《机智过人》中，思必驰团队的“小驰”机器人就曾用撒贝宁的声音演唱过《好久不见》。不同于以往，此次“读诗成曲”则在曲目和参与度上更为开放，支持任何用户从既定曲库中自选歌曲，曲库主要来自节目第一季、第二季嘉宾的演唱曲目。

　　近两年，语音合成技术进入商业落地加速期，除BAT大厂纷纷着眼外，此前36氪也曾报道过标贝科技等创业公司。除了在泛娱乐领域布局，思必驰又会如何将语音合成技术商业落地呢？据初敏博士透露，思必驰更多会将语音合成技术与语音识别、口语理解等算法配套，为泛物联网领域产品提供全链路对话交互方案。

　　具体来说，思必驰当前的业务围绕四个AI进行整体布局：AIOT、AI芯片、AIBOT、AI生态。AIOT业务在泛物联网领域（包括智能车载、智能家居、智能玩具/机器人、智能手机等）提供软件、软硬一体化、Turnkey一站式等多样化方案。在车联网后装、智能音箱、儿童平板/故事机、知识机器人等领域市场占有率均第一，在汽车前装、电视/白电、智能客服等重点领域市场增速领先。未来，思必驰将以“云＋芯”战略方向为主，整合智能终端方案能力与全渠道智慧服务能力，形成AllInOne解决方案，进入酒店、地产、物流、养老、医疗、教育、安全、社区等更多行业。

　　据悉，在语音合成领域，目前思必驰已可以提供标准男女声、童声、名人合成音等，在最新推出的DUI平台VoiceShop中，提供100+特色的高自然度合成音，并为不同厂商提供个性化定制服务打造voice-IP。　　在小年夜，中央电视台《经典咏流传》第二季节目中出现了一款“读诗成曲”的在线互动小工具，用户仅需要朗读一段诗词，就可以听到用自己声音演唱的经典诗词唱段。那这是怎么实现的呢？

　　据悉，在语音合成领域，目前思必驰已可以提供标准男女声、童声、名人合成音等，在最新推出的DUI平台VoiceShop中，提供100+特色的高自然度合成音，并为不同厂商提供个性化定制服务打造voice-IP。

评论排行

推荐阅读

专题

大家都在看

CTI论坛会员企业