您当前的位置是:  首页 > 资讯 > 国内 >
 首页 > 资讯 > 国内 >

语音识别+歌声合成,思必驰想让普通人“读诗成曲”

2019-04-11 10:31:38   作者:   来源:36kr   评论:0  点击:



  在小年夜,中央电视台《经典咏流传》第二季节目中出现了一款“读诗成曲”的在线互动小工具,用户仅需要朗读一段诗词,就可以听到用自己声音演唱的经典诗词唱段。那这是怎么实现的呢?
  原来,“读诗成曲”的背后是思必驰提供的个性化歌声合成算法。歌声合成技术是语音合成(TTS,即Text to Speech)的衍生品,其关键区别在于韵律预测模型不同。在普通TTS系统中,通常有个韵律模型来根据句子的内容和语调环境预测每个音素(音节)的时长和音高曲线。在歌声合成中,这个韵律模型则更换成由乐谱来预测每个音素(音节)的时长和音高的歌曲韵律模型。最终的生成过程仍然跟语音合成类似,将韵律参数和频谱参数结合,生成歌声。
  在“读诗成曲”中,韵律预测模型可以使得机器根据人说话的语调合成歌曲,且根据唱段的韵律和节奏调整音调,这又是如何实现的呢?思必驰北京研发院院长兼副总裁初敏博士告诉36氪:韵律方面,思必驰在原有歌曲韵律模型的基础上增加了个性化学习技术,结合曲库和名曲唱段的特征生成相应的韵律曲线,使歌曲韵律特征尽量接近名曲唱段的特点;在语调方面,思必驰应用了声学模型的个性化学习技术,使得生成的频谱参数尽量接近用户的声音,通过将接近用户的频谱参数和接近名曲唱段的韵律参数结合,就能生成用户“原声”唱出的“经典”曲调了。
  36氪注意到,这并非思必驰首次将个性化歌声合成技术运用于泛娱乐领域,此前在央视节目《机智过人》中,思必驰团队的“小驰”机器人就曾用撒贝宁的声音演唱过《好久不见》。不同于以往,此次“读诗成曲”则在曲目和参与度上更为开放,支持任何用户从既定曲库中自选歌曲,曲库主要来自节目第一季、第二季嘉宾的演唱曲目。
  近两年,语音合成技术进入商业落地加速期,除BAT大厂纷纷着眼外,此前36氪也曾报道过标贝科技等创业公司。除了在泛娱乐领域布局,思必驰又会如何将语音合成技术商业落地呢?据初敏博士透露,思必驰更多会将语音合成技术与语音识别、口语理解等算法配套,为泛物联网领域产品提供全链路对话交互方案。
  具体来说,思必驰当前的业务围绕四个AI进行整体布局:AIOT、AI芯片、AIBOT、AI生态。AIOT业务在泛物联网领域(包括智能车载、智能家居、智能玩具/机器人、智能手机等)提供软件、软硬一体化、Turnkey一站式等多样化方案。在车联网后装、智能音箱、儿童平板/故事机、知识机器人等领域市场占有率均第一,在汽车前装、电视/白电、智能客服等重点领域市场增速领先。未来,思必驰将以“云+芯”战略方向为主,整合智能终端方案能力与全渠道智慧服务能力,形成AllInOne解决方案,进入酒店、地产、物流、养老、医疗、教育、安全、社区等更多行业。
  据悉,在语音合成领域,目前思必驰已可以提供标准男女声、童声、名人合成音等,在最新推出的DUI平台VoiceShop中,提供100+特色的高自然度合成音,并为不同厂商提供个性化定制服务打造voice-IP。  在小年夜,中央电视台《经典咏流传》第二季节目中出现了一款“读诗成曲”的在线互动小工具,用户仅需要朗读一段诗词,就可以听到用自己声音演唱的经典诗词唱段。那这是怎么实现的呢?
  原来,“读诗成曲”的背后是思必驰提供的个性化歌声合成算法。歌声合成技术是语音合成(TTS,即Text to Speech)的衍生品,其关键区别在于韵律预测模型不同。在普通TTS系统中,通常有个韵律模型来根据句子的内容和语调环境预测每个音素(音节)的时长和音高曲线。在歌声合成中,这个韵律模型则更换成由乐谱来预测每个音素(音节)的时长和音高的歌曲韵律模型。最终的生成过程仍然跟语音合成类似,将韵律参数和频谱参数结合,生成歌声。
  在“读诗成曲”中,韵律预测模型可以使得机器根据人说话的语调合成歌曲,且根据唱段的韵律和节奏调整音调,这又是如何实现的呢?思必驰北京研发院院长兼副总裁初敏博士告诉36氪:韵律方面,思必驰在原有歌曲韵律模型的基础上增加了个性化学习技术,结合曲库和名曲唱段的特征生成相应的韵律曲线,使歌曲韵律特征尽量接近名曲唱段的特点;在语调方面,思必驰应用了声学模型的个性化学习技术,使得生成的频谱参数尽量接近用户的声音,通过将接近用户的频谱参数和接近名曲唱段的韵律参数结合,就能生成用户“原声”唱出的“经典”曲调了。
  36氪注意到,这并非思必驰首次将个性化歌声合成技术运用于泛娱乐领域,此前在央视节目《机智过人》中,思必驰团队的“小驰”机器人就曾用撒贝宁的声音演唱过《好久不见》。不同于以往,此次“读诗成曲”则在曲目和参与度上更为开放,支持任何用户从既定曲库中自选歌曲,曲库主要来自节目第一季、第二季嘉宾的演唱曲目。
  近两年,语音合成技术进入商业落地加速期,除BAT大厂纷纷着眼外,此前36氪也曾报道过标贝科技等创业公司。除了在泛娱乐领域布局,思必驰又会如何将语音合成技术商业落地呢?据初敏博士透露,思必驰更多会将语音合成技术与语音识别、口语理解等算法配套,为泛物联网领域产品提供全链路对话交互方案。
  具体来说,思必驰当前的业务围绕四个AI进行整体布局:AIOT、AI芯片、AIBOT、AI生态。AIOT业务在泛物联网领域(包括智能车载、智能家居、智能玩具/机器人、智能手机等)提供软件、软硬一体化、Turnkey一站式等多样化方案。在车联网后装、智能音箱、儿童平板/故事机、知识机器人等领域市场占有率均第一,在汽车前装、电视/白电、智能客服等重点领域市场增速领先。未来,思必驰将以“云+芯”战略方向为主,整合智能终端方案能力与全渠道智慧服务能力,形成AllInOne解决方案,进入酒店、地产、物流、养老、医疗、教育、安全、社区等更多行业。
  据悉,在语音合成领域,目前思必驰已可以提供标准男女声、童声、名人合成音等,在最新推出的DUI平台VoiceShop中,提供100+特色的高自然度合成音,并为不同厂商提供个性化定制服务打造voice-IP。
【免责声明】本文仅代表作者本人观点,与CTI论坛无关。CTI论坛对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

专题

CTI论坛会员企业