您当前的位置是:  首页 > 资讯 > 国内 >
 首页 > 资讯 > 国内 >

标贝:解码AI小语种语音数据集,跨越语言门槛扬帆出海

2021-09-06 10:01:40   作者:   来源:CTI论坛   评论:0  点击:


  近两年,随着“一带一路”建设的深入推进以及国内5G、大数据、AI和云计算等新兴技术产业迅速崛起,已经有越来越多的中国科技企业实现走出去。据白鲸出海数据显示,2019年中国出海企业共7415家,游戏、社交、短视频直播、手机及硬件、电商等占据了80%以上的份额。
  然而,对于主打AI语音产品的企业来说,出海之路仍面临诸多难题。在海外市场,除了要面对不同的市场环境、人文特征、技术安全、数据合规等一系列挑战,首当其冲的应属当地错综复杂的语言问题。通过准确而清晰的合成语音实现与当地用户“无碍沟通”,是智能语音产品能够打开市场的基本前提。
  跨越语言门槛打造高质量语音合成
  众所周知,数据作为人工智能的“燃料”,在实现人机交互的过程中发挥了举足轻重的作用。而语音合成为机器提供声音支持,是语音交互的前提。
  据了解,目前世界上共有7000多种语言,其中使用人数超过5000万的语言仅有10余种。小语种,顾名思义即语言覆盖范围小,使用人数少而无法作为国际流通语言。对于小语种合成语音的实现而言,由于不同语言之间差异很大,开发商需要根据不同的语言特性单独建模。为保证语音合成效果,就需要运用不同语种的优质数据集进行模型优化。
  语音数据库的采集是把各个语种常用句子、词语以语音的方式搜集记录下来,组成一个数据集,标注则是将采集好的数据通过标重点、打标签、框对象、做注释等手段作出标注,再将这些采集并完成标注的数据集给机器训练和学习,成功发出媲美当地人的声音。因此,小语种种类越多,需要完成的语音数据采集和标注工作也就越多。
  当前,高质量小语种训练数据稀缺,成为语音合成的一大瓶颈。
  多语种、多场景小语种语音数据集
  作为国内领先的AI数据服务提供商,标贝科技拥有专业的数据处理团队和强大的数据采集、处理能力,在数据采集和语料标注方面具备丰富的实践经验,可以提供语音合成技术建模和测试需要的深度标注加工的数据服务。
  面对小语种语音数据的需求难题,标贝科技推出一系列小语种语音数据集,覆盖葡语、俄语、印尼语、西语、法语、韩语、德语、意大利语、日语等多个语种,并完成对数据集的音标、重音标注、韵律标注,可供算法优化直接使用,助力中国智能语音产品顺利出海。
标贝科技自有语音数据库
1、巴葡男声语音库
2、巴葡女声语音库
3、俄语男声语音库
4、印尼语男声语音库
5、西西语女声语音库
6、墨西语女声语音库
7、法语女声语音库
8、韩语女声语音库
9、韩语男声语音库
10、德语男声语音库
11、意大利男声语音库
 12、日语女声语音库
  *以上数据库列表仅为部分内容,如需完整数据库请联系我们
巴葡男声采集语音数据样音
巴葡女声采集语音数据样音
俄语男声采集语音数据样音
西西语女声采集语音数据样音
意大利男声采集语音数据样音
法语女声采集语音数据样音
  在应用场景上,标贝科技小语种语音数据库可以广泛应用于诸如智能客服、语音助手、聊天机器人、在线学习、有声读物或新闻播报等领域。例如,在智能客服领域,掌握多个语种,能够实现不同语种客户多样化沟通需求,帮助客服提升服务质量;在语音导航场景下,拥有越多的语种,才能向不同语种的用户发出准确、清晰的答复;在教育场景下,还能通过和虚拟小语种老师的对话,为学生提供外语口语的学习环境。毫无疑问,标贝科技小语种语音数据集将为智能语音设备出海带来更多机会。
  同时,标贝科技也在官网“数据业务”--“数据产品”--“语音合成”板块增加小语种语音数据体验入口,欢迎小语种应用厂商、各企业及开发者体验下载:https://www.data-baker.com/data/index/compose
  当然,如果以上数据不能满足您当前的需求,标贝科技还可以针对特定人群、特定场景、特定语种提供相应的数据定制化服务,全力帮助企业客户得到满意的数据服务。
  欢迎对以上数据集感兴趣的行业伙伴联系我们~邮箱:business@data-baker.com
 

【免责声明】本文仅代表作者本人观点,与CTI论坛无关。CTI论坛对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

专题

CTI论坛会员企业