OC16海天瑞声与清华大学中英文混合语音识别竞赛结果揭晓

　　Oriental COCOSDA2016于2016年10月26日-28日，在美丽的巴厘岛如期召开。O-COCOSDA是东方语音数据库设计、构建、评估、研究与应用等领域最重要的会议之一。逾百名来自亚太地区各国的语言学专家、语音技术研究者和基础语音数据资源供应商出席了会议。

　　在当今世界，英语无疑是一种最强势的语言。由于历史原因和不可逆转的国际化趋势，英语对其他国家的语言带来了巨大的影响，比如混合语言（Mixlingual）现象的产生。

　　在中国的大城市里，那些在海外受过高等教育、或在跨国公司工作的高级白领们，讲中文的时候夹杂一些英语单词，已经是一种司空见惯的现象，比如“我非常努力，不想成为人生的loser（失败者）”。在一些长期受英国殖民统治的国家，如印度，本地语言和英语单词混合，是当地人日常交流中最为普遍的语言现象。即便完全没有读过书的人，在交谈中也会夹杂个把英语单词。笔者曾在印度旅居多年，虽然不懂印地语，但并不妨碍在一定程度上揣测本地人之间交流的大致内容，因为他们在交谈中使用大量的英语单词。

　　这种语码混合（Code-mixing）现象，不仅带来了各国本土语言的微妙演化，也同时为语音识别技术带来了巨大的挑战。目前，各大语音识别引擎巨头，在单一语言的识别率方面，往往能达到90%以上、甚至高达95%的识别准确率。但遇到包含语码混合现象的语音时，其识别准确率会大幅下降。其原因虽是多方面的，但其中一个最主要的原因是：大规模、高品质的混合语言训练数据（比如中、英混读语音训练数据）目前还很少见。

　　在这次会议上，对于混合语言现象的研究是来自各国参会代表们普遍关注的重点之一，有若干篇会议论文谈及混合语音数据库和基于这些数据库之上所做的混合语音识别研究成果。中国的语音技术研究水平，一直在亚洲、乃至全世界保持领先水平。在本次会议上，来自国内的研究机构和企业，在来自亚洲其他国家同行们的面前，展现了中国在该领域的独特风采！

　　作为国内领先的语音技术研究机构，清华大学语音语言技术中心(CSLT)联合北京海天瑞声科技有限公司（SpeechOcean），国内唯一具有多达110种语言能力的数据资源与服务提供商，在此次会议上发起了“Special Session for Mixlingual Speech Processing”（混合语言语音处理特殊议题），其内容包括（但不限于）混合语言的语音学分析、语音识别、语音合成、说话人识别、语言理解等混合语言处理任务。

　　除此之外，清华大学和海天瑞声还在会议上联合发起了一个“中英文混合语音识别竞赛(OC16 MixASR-CHEN Challenge)”。

　　该混合语音特殊议题和语音识别竞赛，面向亚洲所有的大学、科研机构以及企业的语音技术研发机构发起召集。清华大学CSLT提供了实验Baseline，实验数据库OC16-CE80则由北京海天瑞声科技有限公司提供。

　　OC16-CE80是一个录音总长度为80个小时、包括1445名发音人的中英文混合语音数据库，也是国内目前罕见的大规模中英文混合语音数据库。该语音识别数据库是在目前市场占有率最高的三种手机操作平台上进行录音（其中Android系统占50%，iPhone占30%）。考虑到在大中城市里、受过良好教育的年轻一代更倾向于“中英文混合”式的语言风格，在发音人的地域选择、年龄分布、语料来源等方面，也做了精心的设计和安排。据海天瑞声的陈清介绍，目前还有100多个小时的数据没有公布，这些数据将在以后类似的学术交流活动中逐步公布出来。

　　该特殊议题收集到了若干篇论文，其中，由“清华大学”和“海天瑞声”的合作论文《OC16-CE80:AChinese-English Mixlingual Data base and A Speech Recognition Baseline》获得了Oriental COCOSDA2016最佳论文奖。

（“清华大学”与“海天瑞声”合作论文获得最佳论文奖）

　　在若干提交竞赛结果的参赛队伍中，三星中国研究院（Samsung R&D Institute of China-Beijing）力拔头筹，以中英文语音识别综合WER达到14.75%的成绩，在竞赛中获得了第一名，充分展示了中国语音技术研究者的实力！除此之外，三星中国研究院还获得了会议颁发的“Best Performance Award（最佳表现奖）”

　　该竞赛的第二由上海师范大学获得，中英文识别综合WER达到16.11%；第三名是台湾中央研究院与华硕Da Vinci Innovation Lab合作获得，中英文识别综合WER达到19.05%；

　　海天瑞声的市场总监陈清，在会议上介绍了该次竞赛所使用的数据库“OC16-CE80”，及其他混合语言数据库，包括一个台湾语+英语的混合语音库，四个在建的混合语音库（印尼语+英语、印地语+英语、日语+英语、韩语+英语）。海天瑞声以其多达110种语言的数据服务能力、近10万小时的多种语音识别和语音合成数据库资源，及多语种文本和发音词典等，得到了与会代表们的普遍关注和垂询。同时，“海天瑞声”也是目前国内唯一有能力提供稀有语种数据服务的供应商，包括北朝鲜语、希伯来语、加泰罗尼亚语、阿拉伯语、捷克语、波兰语等，给听众们留下了深刻的印象。

　　海天瑞声表示未来将携手各大国际科研机构推出更多高质量免费的科研学术数据。并介绍了在即将举办的APSIPA16（2016年12月14日在韩国济州岛召开）上，与清华大学CSLT共同举办的Oriental Multiple Language Special Session&Language Recognition Challenge。这个活动也是由海天瑞声提供免费实验数据，并由清华大学提供实验Baseline。

（清华大学CSLT的王东老师，在会议上介绍实验baseline，并宣布竞赛结果）
（海天瑞声的陈清在介绍试验数据库详情）

（海天瑞声的陈清在介绍试验数据库详情）
获奖人员与会议组织者合影

　　获奖人员与会议组织者合影
三星中国研究院的余骁捷在接受会议主席颁奖

三星中国研究院的余骁捷在接受会议主席颁奖

评论排行

推荐阅读

专题

大家都在看