您当前的位置是:  首页 > 资讯 > 国内 >
 首页 > 资讯 > 国内 >

联想研究院:用语音技术,解读人类首次登月通讯数据

2021-09-07 14:13:43   作者:   来源:CTI论坛   评论:0  点击:


  在8月底9月初举行的语音领域国际顶级会议Interspeech2021上,联想研究院和昆山杜克SMIIP实验室合作完成的两篇语音技术论文被大会收录。
  这两篇论文分别是The DKU-Duke-Lenovo System Description for the Fearless StepsChallenge Phase III(昆山杜克-联想第三届“无畏脚步挑战赛”系统描述),以及The 2020 Personalized Voice Trigger Challenge: Open Database, Evaluation Metrics and the Baseline Systems(2020个性化语音唤醒挑战赛:开放数据库,评价标准以及基线系统)。
  第一篇论文介绍了今年联想和昆山杜克联队参加第三届无畏脚步挑战赛(Fearless Steps Challenge)的获奖系统。
  无畏脚步挑战赛---用语音技术解读人类首次登月语音
  该挑战赛在Interspeech2019大会上由德克萨斯大学达拉斯分校发起,今年已是第三届。挑战赛基于人类第一次登月任务---阿波罗11号登月真实通讯语音数据,包括从发射到返回地球各阶段,3位宇航员和29个负责不同任务的站点之间的通讯语音,设置了5类语音分析和识别任务,包括:
  • 语音端点检测(SAD,Speech Activity Detection)
  • 声纹识别(SID,Speaker Identification)
  • 说话人日志(SD,Speaker Diarization)
  • 语音识别(ASR,Automatic Speech Recognition)
  • 对话分析(CA,Conversational Analysis)
  阿波罗11号登月语音数据包含600多个说话人,类型复杂,包含环境噪声、信道噪声、设备噪声等干扰因素,每一个信道采集的声音都可能包含几个或者十几个其他信道的干扰,因此属于高难度的实时通讯和自然交谈场景,为语音识别和分析任务带来了很大的挑战。
语音端点检测任务获得国际第二名
  在本次比赛中,联想和昆山杜克联队参加了其中的端点检测、声纹识别和说话人日志三项子任务,最终在端点检测任务中获得了国际第二名,而声纹识别和说话人日志分别获得冠军。
声纹识别任务获得国际第一名
  语音端点检测用以检测连续语音中人说话的起始点,即有效话音检测。快速准确的端点检测算法,不仅能够提升语音识别准确率,还可以提高计算效率,通常在语音识别、声纹识别等任务中担负着前端预处理作用。
  而声纹识别是判断一段语音是否是某个目标人所说。除了在安全领域的应用,在智能物联网设备以及智慧客服、智能办公等垂直行业中也有广泛的应用需求。
  说话人日志,则是基于声纹识别的扩展任务,即检测一段语音中什么人、什么时间在说话。该技术在智能会议场景中有重要作用,结合语音识别可以形成带有发言人信息的自动会议纪要。
  基于声纹识别的个性化语音唤醒
  另外一篇入围论文,即2020个性化语音唤醒挑战赛:开放数据库,评价标准以及基线系统,介绍了由联想研究院与昆山杜克大学、北京邮电大学联合主办的“2020个性化语音唤醒挑战赛”(PVTC 2020 - Personalized Voice Trigger Challenge)及基线系统的情况。PVTC2020是国际语音通信协会中文口语语言处理专委会旗舰会议ISCSLP2021(International Symposium on Chinese Spoken Language Processing)的组成部分。本次挑战赛考察的是带有声纹认证功能的语音唤醒技术,唤醒词是联想产品中最广泛应用的唤醒词之一“小乐小乐”。活动历时3个月,参赛团队来自著名高校、知名企业和人工智能创业公司,包括北京大学、西北工业大学、厦门大学、小米、出门问问、普强、实地地产、杭州国芯等,其中来自小米、西工大、出门问问、实地地产的四支队伍分别跻身不同赛道的前三名。这次活动为业界同行构建了良好的交流平台,促进了资源和技术共享,推动了学术界和工业界更密切的合作。
  另外,在刚刚揭晓的Interspeech 2021副语言语音属性评测中(ComParE 2021),联想研究院团队在灵长类动物叫声分类任务中夺得国际第三名。音频分类是语音领域一个重要的方向,应用场景非常广泛,如检测环境噪声、特殊音频场景和事件,在智能家居、智慧城市等行业都有重要应用。
  ComParE是Interspeech系列评测之一,在语音领域属于重量级评测。语音是语言的声音表现形式,不仅包含了语言语义信息,同时也传达了说话人、语种、性别、年龄、情感、信道、嗓音、病理、生理、心理等多种丰富的副语言语音属性信息。ComParE的目的就是识别或检测各类副语言语音属性,如情感识别、哭声检测、嗓音病理识别、方言语种识别等。
  作为联想智能语音技术核心研发团队,联想研究院人工智能实验室语音团队已经构建了全链自研语音技术栈,全面赋能联想的智能设备、智能化服务和行业智能化解决方案。
  两篇语音技术论文链接,欢迎访问:
  1.The DKU-Duke-Lenovo System Description for theFearless Steps Challenge Phase III:
  https://www.isca-speech.org/archive/pdfs/interspeech_2021/wang21i_interspeech.pdf
  2.The 2020 Personalized Voice Trigger Challenge:Open Database, Evaluation Metrics and the Baseline Systems:
  https://www.isca-speech.org/archive/pdfs/interspeech_2021/jia21b_interspeech.pdf
【免责声明】本文仅代表作者本人观点,与CTI论坛无关。CTI论坛对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

专题

CTI论坛会员企业