标贝：解码AI小语种语音数据集，跨越语言门槛扬帆出海

　　近两年，随着“一带一路”建设的深入推进以及国内5G、大数据、AI和云计算等新兴技术产业迅速崛起，已经有越来越多的中国科技企业实现走出去。据白鲸出海数据显示，2019年中国出海企业共7415家，游戏、社交、短视频直播、手机及硬件、电商等占据了80%以上的份额。

　　然而，对于主打AI语音产品的企业来说，出海之路仍面临诸多难题。在海外市场，除了要面对不同的市场环境、人文特征、技术安全、数据合规等一系列挑战，首当其冲的应属当地错综复杂的语言问题。通过准确而清晰的合成语音实现与当地用户“无碍沟通”，是智能语音产品能够打开市场的基本前提。

　　跨越语言门槛打造高质量语音合成

　　众所周知，数据作为人工智能的“燃料”，在实现人机交互的过程中发挥了举足轻重的作用。而语音合成为机器提供声音支持，是语音交互的前提。

　　据了解，目前世界上共有7000多种语言，其中使用人数超过5000万的语言仅有10余种。小语种，顾名思义即语言覆盖范围小，使用人数少而无法作为国际流通语言。对于小语种合成语音的实现而言，由于不同语言之间差异很大，开发商需要根据不同的语言特性单独建模。为保证语音合成效果，就需要运用不同语种的优质数据集进行模型优化。

　　语音数据库的采集是把各个语种常用句子、词语以语音的方式搜集记录下来，组成一个数据集，标注则是将采集好的数据通过标重点、打标签、框对象、做注释等手段作出标注，再将这些采集并完成标注的数据集给机器训练和学习，成功发出媲美当地人的声音。因此，小语种种类越多，需要完成的语音数据采集和标注工作也就越多。

　　当前，高质量小语种训练数据稀缺，成为语音合成的一大瓶颈。

　　多语种、多场景小语种语音数据集

　　作为国内领先的AI数据服务提供商，标贝科技拥有专业的数据处理团队和强大的数据采集、处理能力，在数据采集和语料标注方面具备丰富的实践经验，可以提供语音合成技术建模和测试需要的深度标注加工的数据服务。

　　面对小语种语音数据的需求难题，标贝科技推出一系列小语种语音数据集，覆盖葡语、俄语、印尼语、西语、法语、韩语、德语、意大利语、日语等多个语种，并完成对数据集的音标、重音标注、韵律标注，可供算法优化直接使用，助力中国智能语音产品顺利出海。

标贝科技自有语音数据库

1、巴葡男声语音库

2、巴葡女声语音库

3、俄语男声语音库

4、印尼语男声语音库

5、西西语女声语音库

6、墨西语女声语音库

7、法语女声语音库

8、韩语女声语音库

9、韩语男声语音库

10、德语男声语音库

11、意大利男声语音库

12、日语女声语音库

　　*以上数据库列表仅为部分内容，如需完整数据库请联系我们

巴葡男声采集语音数据样音

巴葡女声采集语音数据样音

俄语男声采集语音数据样音

西西语女声采集语音数据样音

意大利男声采集语音数据样音

法语女声采集语音数据样音

　　在应用场景上，标贝科技小语种语音数据库可以广泛应用于诸如智能客服、语音助手、聊天机器人、在线学习、有声读物或新闻播报等领域。例如，在智能客服领域，掌握多个语种，能够实现不同语种客户多样化沟通需求，帮助客服提升服务质量；在语音导航场景下，拥有越多的语种，才能向不同语种的用户发出准确、清晰的答复；在教育场景下，还能通过和虚拟小语种老师的对话，为学生提供外语口语的学习环境。毫无疑问，标贝科技小语种语音数据集将为智能语音设备出海带来更多机会。

　　同时，标贝科技也在官网“数据业务”--“数据产品”--“语音合成”板块增加小语种语音数据体验入口，欢迎小语种应用厂商、各企业及开发者体验下载：https://www.data-baker.com/data/index/compose