您当前的位置是:  首页 > 资讯 > 文章精选 >
 首页 > 资讯 > 文章精选 >

专访 | 标贝科技刘博:洞见智能语音赛道未来之路

2021-05-25 09:53:24   作者:   来源:CTI论坛   评论:0  点击:


  聚焦成长|赋能品牌
  为助力园区企业品牌宣传、打造企业创新生态,中关村东升科技园推出原创栏目《企业家专访》。以“聚焦成长+赋能品牌”为主题,深入了解企业成长历程、角色定位、企业文化等,并深入挖掘企业需求,提升企业长期发展竞争力。
  本期《企业家专访》栏目特别邀请标贝(北京)科技有限公司创始人&CEO刘博,透过标贝科技在智能语音领域的技术深研与发展路径,洞见智能语音赛道未来之路。
  标贝科技创始人&CEO刘博
  中欧EMBA,对外经贸大学硕士;连续创业者,曾创立盖博资本管理有限公司,担任创始人兼CEO;2016年,创立标贝科技,负责整体战略发展、运营管理及资本等。
  语音作为语言的物质载体和人类日常生活交流的重要信息载体,承载着丰富的语言内涵,是人类进行信息交流的重要传递通道。日常生活中,超过20%以上的交流都需要通过语音来完成。同一语音情境下,不同的语调、语气和情绪的不同都会影响语义的传达。随着人工智能时代的到来,智能语音交互技术也成为了人机智能交流的重要载体。智能语音作为桥接人和机器语音交流的人工智能应用,一方面承载着机器和人的交流,另一方面直达知识和逻辑。如何通过海量数据的快速学习,让机器理解不同情绪、语调下的多人语音内容和含义,通过机器生成更加自然的声音体验,是语音交互始终致力解决的难题。
  标贝科技通过语音技术与数据,将情感与用户的有机串联,不断拓展AI语音技术的应用场景,围绕生活场景、办公效率、行业协同,打造完整的智能语音生态服务体系。
  据了解,标贝科技从2016年成立至今,基于先进AI语音算法及海量数据规模优势,已推出多场景应用的语音交互方案,包括通用场景的语音合成、语音识别,以及高音色TTS定制、声音复刻、情感合成和声音转换等在内的语音技术产品。为机器赋予生命力,能够有温度的、有情感的与用户进行交流,让人机交互变得更简单、美好。
  短短几年时间,标贝科技从默默无闻到科技黑马,从悄无声息到一鸣惊人,更是在2020年成功入选“中国科创产业新锐TOP50”榜单。让我们回顾标贝科技的成长历程,共同探索标贝如何实现从0到1的技术夯实,以及从1到10的快速成长,从而处于智能语音交互领域行业标杆地位的探索升级之路。
  第一阶段
  语音赛道数据为王
  2016年,标贝科技于中关村东升科技园成立。作为一家专注于智能语音交互和AI数据服务的人工智能公司,短短5年时间,标贝科技已与华为、腾讯、阿里、字节跳动、人民日报、新华社等百余家知名企业及机构客户建立战略合作,服务项目累计超过1000项,涵盖有声阅读、智能客服、智慧金融、AI教育、泛娱乐、自动驾驶、智慧城市等众多领域。
  作为语音交互技术领域的黑马,标贝除了技术的深研和专注外,创始人刘博对于智能语音赛道的专注和独到的战略布局,也是标贝能在短时间内脱颖而出、巨量增长的关键。
  回望整个标贝科技发展进程及技术路径,刘博表示,标贝创立之初便进行了前瞻性的数据产业布局,基于3-5年的经验及技术累积迭代,标贝已经建立了超过10万小时的数据库,这些数据累积也为下一阶段的技术运用打下了坚实基础,初步建立了标贝的核心竞争力。
  专注、务实、创新,是标贝一路积微成着,走向行业领先道路上不可或缺的因素。
  第二阶段
  算法深耕创新语音合成
  2017年,标贝迈入第二发展阶段,即从数据的累积到基于算法的深层探索。刘博表示,海量的数据积累,为垂直行业多元化场景的深度结合打下了坚实的基础。基于海量真实、有温度、有情感的语音积累,结合算法的优化迭代,标贝科技推出了可应用于泛娱乐、智能家居、智能客服等多个行业的多语种,多音色,多情绪的语音交互解决方案,实现了无差别与真实交互的“虚拟语音交互”。
  例如为金融领域提供的具有双录主播功能解决方案,通过提供无感知的虚拟数字人交互,在时效保证、服务标准、服务质量、服务时长等方面既保证了输出的一致性,也减缓了企业的运营成本。
  同时,标贝科技融合了语音唤醒、语音识别、语音合成、语义理解和人脸识别等系列技术,通过移动设备、智能大屏等终端展现形式,从多场景的实际需求出发,打造的人机交互解决方案-AI虚拟数字人,以高仿真服务和7*24小时无差别的服务输出,满足场馆介绍、产品介绍、业务介绍使用者只需选择想要了解的内容进行问询或操纵,虚拟数字人便可以娓娓道来,效果不输真人,实现用户与虚拟数字人之间的“面对面”互动交流、服务导览、智能问答、业务咨询等服务,以丰富的行业知识库、灵活的配置管理、交互数据快速迭代更新,进一步实现了企业的降本增效。
三星堆讲解
  语音合成方面,标贝科技发展至今已历经三个阶段,无论是在场景落地还是技术演化方面,均有巨大突破。
  1.0阶段注意力机制深度学习首次商用
  为了提高语音合成的自然流畅度,标贝科技的语音合成技术在声学、韵律上采用了基于Attention机制的深度神经网络技术模型,充分利用文本数据,构建前端模块、选择合适的声码器,降低运算量,实现合成语音的发音自然、清晰、韵律感流畅,让机器与人的互动显得更亲近。
  2.0阶段音色扩展个性化合成
  为了满足不同场景的需求,标贝科技在音色和场景丰富度上持续发力。基于海量语音数据的优势,对音色库进行充分扩充,推出支持不同年龄、性别、以及语种的多类型音色的TTS2.0解决方案,并支持用户个性化需求定制,满足了多场景及多业务的需求。
  语音技术方面,标贝打造了支持声音复刻、情感合成等个性化、差异化的语音技术服务。声音复刻与情感合成是基于语音技术本身的创新型应用。通过复刻声音,为声音注入丰富的情感,深度挖掘合成语音的个性化、定制化价值,更好的匹配有声阅读、AI教育等应用场景。
  3.0阶段深度学习框架升级,更有表现力更自然的声音
  全新升级的TTS3.0技术采用全新的Transformer机制和GAN声码器,升级了全新的模型结构的基础上,依旧保持了对tts2.0旧模型的全部兼容,最大程度地保证无缝升级。同时,新系统使用了高维度的声学信息,可以承载更多的声音细节,显着提升了现有发音效果。无论是自然讲话、情绪讲话、还是角色模仿,都大大提升了多场景下角色和情感表达判断的精确性,同时保障了输出音质的稳定、清晰、顺畅,声码器采用GAN结构,不但高效且真实的还原了波形,同时为合成声音注入了真实质感。
  第三阶段
  需求出发打造AI语音生态战略
  提及智能语音的未来愿景及标贝的发展,刘博的战略格局则更为宏观。在访谈中刘博透露:“人工智能的终极目的是解决实际需求。任何单点产品都无法完全解决核心问题,标贝更希望通过数据的积累,以及算法的深度融合,最终实现一套完整的解决方案,形成优化、快速响应的能力,从而打造标贝独特的竞争优势和技术壁垒。”近年来,高性能计算、信号处理、模式识别及声学技术发展迅速,针对不同应用需求而研究开发语音识别系统已成为可能,因此,语音识别技术在智慧办公、智慧政务、物联网、车联网等众多领域得到了广泛的推广和应用。同时,标贝还在不断拓展金融和泛娱乐版块,通过三大场景的场景布局,打造未来战略方向。
  刘博补充说道,为进一步提升技术产品服务能力及人工智能语音场景落地,满足更多开发者和商业化客户对于智能语音交互的需求,全效助力开发者构建AI语音生态,标贝科技在今年4月正式推出智能语音开放平台。
  目前,标贝开放平台提供的智能语音服务主要包括语音合成(TTS)与语音识别(ASR),开发者可以在平台操作界面创建多个智能语音应用,系统会为该应用自动匹配语音识别和语音合成服务。语音识别包括一句话识别、长语音识别、录音文件识别;语音合成可选择在线合成、离线合成、长文本合成三种,用户可根据自身需求进行用量、音色、并发等接入试用。通过快速的体验、测试,让开发者和合作伙伴直接感受标贝语音技术的能力,通过丰富的文本接入指导,以及便捷的支付方式,让用户可以一站式的购买接入标贝的语音服务。
  未来
  属于智能语音最好的时代即将到来
  谈及智能语音的未来发展,刘博给出了自己的理解和预测,“其实从20-21年开始。我们可以发现整个语音市场已经逐渐进入快速爆发性的增长阶段。”随着人工智能、计算技术和信号处理技术的飞速发展,以及自然语言与计算机网络的结合,语音信息智能处理作为人机交互的关键技术,已成为世界各国研究者广泛关注的热点问题之一。尤其是随着数字化及5G时代的到来,人们迫切需要对具有多通道、多场景、多语言特征的海量语音信息技术进行智能语音的深化研究与创新突破。
  “智能语音第一次带来了不需要任何门槛的全人类的协作,人工智能的自我演化就此开始,目前智能语音在进化的道路上,还需要突破语义理解这道门槛,一旦机器能真正用人类的方式进行沟通,做出超越经验的预判,才真正实现了所谓的“智能”。但我相信不会太久,属于语音最好的时代,便会到来!”
  官网:https://www.data-baker.com/#/index
【免责声明】本文仅代表作者本人观点,与CTI论坛无关。CTI论坛对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

相关热词搜索: 标贝 智能语音

上一篇:什么是会话分析?

下一篇:最后一页

专题

CTI论坛会员企业