您当前的位置是:  首页 > 资讯 > 国内 >
 首页 > 资讯 > 国内 >

捷通华声灵云语音合成技术:让人机交互更有“温度”

2021-12-03 09:30:08   作者:   来源:CTI论坛   评论:0  点击:


  语言的多模态应用已成为人们生活中习以为常的现象,一句简单的语音控制、一次短暂的智能客服答疑……这些都是 AI 语音交互技术应用为人们生活带来的便利,与此同时,其社会价值与意义也在被重新估判......
  有 “温度”的声音
  语音技术主要分为语音合成(Speech Synthesis, 或者 Text to Speech)、语音识别(Speech Recognition, 或者 Speech to Text)、自然语言处理。其中,语音合成技术发展最早,且应用已较为普遍。
  “说”是人机交互无法忽视的环节,语音合成的重要性日益凸显。
  语音合成技术旨在通过将文字转化为语音,让机器“开口说话”使得机器变得有“温度”,实现趋于完美的人机交互。
  从早期的机械化语音合成开始发展至今,语音合成的应用场景经历了较大的转变。过去语音合成应用主要用于简单的文本播报,场景相对单调,现其应用场景更复杂更多样,智能助手、智能机器人、文字阅读等诸多领域都能见到语音合成技术的身影。
  如在有声阅读方面,用户需求越来越个性化;
  机场、车站广播等服务业,甜美温柔的音质可以拉进与乘客间的距离,让乘客在繁忙的旅途中感受到温暖;
  人们在听新闻时,往往期望播音员具有一个浑厚、稳重的声音;
  服务业客服场景下,人们倾向于声音更加热情、亲切。
  如何让合成的声音听起来自然并富有情感,是语音合成领域的一个主要发展方向。
  增强语音交互真实感
  传统的语音合成技术,选音拼接和参数合成两条路线长期并存。前者音频、语速真实,但合成效果不稳定,甚至听不懂,而后者合成内容效果基本稳定,但音质机感浓重,音色损失大,语速不流畅。
  为了提升合成语音自然度、流畅度,研究者们创立了全新的波形生成和序列到序列路线,直接以因果预测的思路逐个生成音频样点,追求完全还原,填补了参数合成与波形拼接在音质方面的鸿沟。同时,传统的参数合成需要另建一个专用的时长模型来预测每字的长度,存在严重的机器感。由于端到端路线的发展,Transformer架构的Tacotron系统通过直接建立文本序列到音频帧序列的映射模型,克服了一字一顿的顽疾。Tacotron-Wavenet填补了参数合成与拼接合成的鸿沟,加大了语音柔顺度的提升,完胜传统参数合成和各种拼接合成。
  捷通华声所研发的灵云语音合成技术应用最新的深度学习技术,通过引用“全并行架构声学模型”将转化速度、韵律预测效果以及声学模型训练效果进行提升,将合成语音的音质与自然度提升到与人类接近的水平。
  目前,灵云语音合成技术支持中、英、日、韩、维、藏等多种语言,男声、女声、童声、卡通声等多种音色,具备热情、甜美、严厉等多种风格,为营销、导航、新闻、阅读等领域提供服务支持。
  声音定制,真正的“人情味儿”
  捷通华声还可根据用户需求,通过录制和制作语音合成定制音库,在极短时间内定制出各式各样的高度仿真的人工智能声音,效果自然且逼真。
  实际上,在AI行业或者用户群体中,AI语音定制的能力始终被报以高度期待,利用AI模拟人声,不仅可以注入记忆、陪伴等社会情感因素,还可借助用户熟悉的声音触发更多的应用想象。灵云语音技术可将制作一个高品质声音所需的训练时间极大降低,让AI语音定制不再需耗费过多时间和资源,以更平常方式“飞入寻常百姓家”。
  语音合成技术的快速发展,机器合成语音越发自然生动,富有情感表现力。捷通华声作为深耕语音合成领域多年的企业,在一次次升级和迭代中,满足不同场景下越来越多的用户需求,已广泛服务于金融、电信、能源、交通、教育、司法、公安、医疗、互联网等多个领域。
【免责声明】本文仅代表作者本人观点,与CTI论坛无关。CTI论坛对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

专题

CTI论坛会员企业