您当前的位置是:  首页 > 资讯 > 文章精选 >
 首页 > 资讯 > 文章精选 >

科大讯飞刘聪:用系统性创新破局多语种智能语音语言技术难题

2021-06-08 13:27:00   作者:   来源:CTI论坛   评论:0  点击:


  6月6日下午,全球人工智能技术大会期间,聚焦全球化多语种需求,着眼于语言互通在“一带一路”战略中的基础性作用,在多语种智能信息处理专题论坛上,科大讯飞研究院执行院长刘聪发表《用系统性创新破局多语种智能语音语言技术难题》主题演讲。
  用系统性创新破局多语种技术难题
  当前,语音已成为万物互联时代人机交互的关键入口,语音输入、语音搜索、语音交互等技术已经成为手机、车载、玩具等智能产品的标配。另一方面,“一带一路”国家战略的建设依赖语言互通,多语种翻译技术价值凸显。此外,多语种语音语言技术也涉及国家信息安全等重大方向,成为世界各国竞相布局的关键技术方向。
  因此,无论从社会刚需,还是国家战略、信息安全等方面考虑,布局多语种语音语言技术都显得尤为重要。
  刘聪表示,未来十年,我们将围绕语音交互、语言翻译等刚需应用场景,开展多语种语音识别、语音合成、机器翻译、图文识别等智能语音语言技术的系统性布局,覆盖包括“一带一路”和世界主要国家在内的70多种语言。
  “我们非常清楚要将70多种语言的智能语音语言技术做到实用水平,并没有那么容易,所以我们计划用十年的时间去攻克这个难题。”
  针对未来十年布局,刘聪总结出多语种技术研发中面临的三个挑战:
  一是不同语言的用户分布存在明显的长尾效应,小语种语言分析研究的积累和投入不足。不同语言独特的语言现象十分复杂,相关知识的全面积累以及知识与技术的融合均存在困难;
  二是多语种训练数据稀缺,制作难度和成本较大,难以支撑大量语种系统的研发;
  三是语音合成、图文识别、语音识别、机器翻译等多语种技术涉及70多个语种、云端和本地引擎,以及不同领域需要研发部署成百上千套系统,众多系统批量构建存在难题。同时,当前基于级联的语音翻译、图片翻译也存在误差扩散问题。
  刘聪认为:“多语种技术的全面推动,包括技术创新和应用落地,不能只靠单点技术的创新,迫切需要通过系统性创新的方式来破局。”
  从数据、算法、平台多维度
  构建多语种技术的系统性创新研发体系
  什么是系统性创新?科大讯飞总结了三大关键要素:一是关键的核心技术效果要跨越技术鸿沟,达到应用门槛;深度融合创新链条上的各个关键技术,激发创新能力;针对重大的历史命题社会命题进行系统性解析,并将其转化为科学问题。
  单点技术突破方面,从2006年研发的中文口语评测机器评分超过专业评测员平均水平,到2015年研发的机器中文语音转写正确率超过人类速记员水平,再到智医助理机器人通过国家执业医师资格考试综合笔试测试、中英语音翻译达到CATTI全国翻译专业资格(水平)考试二级合格标准……科大讯飞不断在单点技术上取得突破。
  在创新链条上各关键技术的深度融合方面,基于核心技术的深度理解,我们可以进行多个方向技术的协同创新。刘聪举例,2016年,科大讯飞基于语音谱图和图像的相似性,成功将卷积神经网络应用于语音识别,提出DFCNN建模技术,将其拓展到图文识别任务上,效果取得了大幅提升。
  “对于多语种智能语音语言技术研发及产业化而言,由于其涉及语言众多、技术实现复杂,我们将其作为一个系统工程进行推动。”刘聪表示。
  他从数据、算法、平台等维度,分享了科大讯飞在多语种智能语音语言技术系统性创新中的思考和实践。在数据方面,科大讯飞研发了基于人机协同的多语种数据标注平台;在算法方面,重点开展了多语种端到端统一建模框架、无监督/弱监督训练,以及语音/图片翻译多任务协同优化等方向的研究;在研发训练效率优化方面,构建了多语种模型自动训练及定制优化平台,以推动多语种系统的批量研发,解决人工耗时耗力问题。
  “基于系统性创新,我们已经完成一套完整的多语种语音语言系统研发,包括60种语言的语音合成,69种语言的语音识别,56种语言的图文识别,以及168种语言与中文的机器翻译。”刘聪指出,部分语种现已上线讯飞开放平台,对外提供服务。
  用系统性创新推动多场景广泛落地
  得益于系统性创新,科大讯飞多语种智能语音语言技术在语音交互、语言翻译等场景初步取得规模化应用落地。
  在多语种交互方面,科大讯飞与俄罗斯汽车工程研究院(NAMI)、奇瑞等国内外多个厂商开展多语种合作,目前已覆盖英语、俄语、日语、泰语、西班牙语、意大利语等主要语种。
  在多语种翻译方面,科大讯飞2016年发布的讯飞翻译机开创了AI翻译机新品类,今年5月又推出双屏翻译机,持续引领智能翻译硬件潮流。讯飞听见同传产品广泛应用于大型会议、发布会、展览会等场景,已服务超1万场次大会,服务超3亿人次。科大讯飞还成为北京2022年冬奥会和冬残奥会官方自动语音转换与翻译独家供应商,助力打造人类历史上首个信息沟通无障碍的奥运会。
  此外,为了赋能海外开发者,依托智能语音国家新一代人工智能开放创新平台,2020年4月科大讯飞在新加坡部署了海外站点,为海外开发者提供多语种语音识别、语音合成、机器翻译、图文识别和语音评测等能力,海外开发者数量已经超过7万人。
  刘聪指出,尽管在多语种技术研发和产业应用方面,我们取得初步成效,但我们也应清醒认识到,当前大量低资源语种的技术水平相比中英文等资源丰富语种还有较大差距。依托“科技冬奥”“科技创新2030”等国家科技部重点研发计划,科大讯飞目前联合了中科大、哈工大、新疆大学、上海外国语大学等国内众多科研单位,已形成了广泛的多语种产学研联盟,共同推动我国多语种智能语音语言技术进步。
【免责声明】本文仅代表作者本人观点,与CTI论坛无关。CTI论坛对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

专题

CTI论坛会员企业