您当前的位置是:  首页 > 资讯 > 国际 >
 首页 > 资讯 > 国际 >

Azure语音服务现在能够评估人类说话发音

2021-07-06 15:35:27   作者:   来源:CTI论坛   评论:0  点击:


  Azure语音服务新增发音评估功能,其神经网路模型采用特殊分层架构,并以10万小时的语音训练,能够给出专业的发音评估
  微软在其Azure语音服务新增发音评估(Pronunciation Assessment)功能,该功能可以评估语音发音,提供说话者有关语音准确性和流畅度的回馈,现在该功能美国英语已经正式上市,其他语言则提供预览版本。
  发音评估是Azure认知服务中,语音服务的一项功能,可提供主观与客观语音评估回馈,有助於以电脑辅助语言学习的效果,微软提到,对语言学习者来说,练习发音能够获得即时的回馈,可以有效提高语言技能。过去发音评估都需要交由老师进行,但这需要花费大量的时间和精力,学习者必须要付出较高的学习成本,而发音评估是一个由人工智慧驱动的语音功能,让学习者可更容易地获得发音校正指导。
  发音评估能够给出接近人类专家品质的综合评价,以不同精细度评估用户的发音,从单音素到完整段落输入。在音素层面,发音评估会提供每个音素的准确度分数,帮助学习者更好地理解语音发音细节,而在单词等级,发音评估可以自动检测错误提供准确度分数,以及遗漏、重复和错误发音等详细资讯。
  而在全文层级,发音评估提供额外的流畅度和完整度分数,流畅度则是和母语者比较,在单词之间中断无声的程度,而完整度则代表所输入的参考文本中,用户念出单词的比例,然後从准确度、流畅度和完整性汇总分数,给出整体的发音品质评估,学习者可以利用这些评估,改进口说弱点。
  语音评估的核心,是使用发音错误检测和诊断(Mispronunciation Detection and Diagnose,MDD)技术,对单词层级的发音准确度进行评分,提供错误判断并且有助於整体评估,官方提到,为了提供准确且一致的结果,发音评估采用新的神经网路进行建模,利用分层架构从较低的单词粒度,处理到更高的单词粒度讯息。官方提到,这样的设计让发音评估,可以从微小的模式中,充分利用详细的发音资讯,使得错误发音检测更准确。
  发音评估模型使用超过10万小时,来自不同口音、地区和年龄的语音训练资料,发音评估可以处理各种类型用户沟通的场景,像是成人到小孩,或是非母语人士到母语人士,提供一致的评估效能。官方提到,发音评估支援自由式谈话,也就是说话者在说话之前没有任何前缀参照,像是演讲或是口语考试,透过使用Azure Speech-to-Text服务,发音评估可以自动准确地转录语音,并提供各种粒度评估结果。
【免责声明】本文仅代表作者本人观点,与CTI论坛无关。CTI论坛对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

专题

CTI论坛会员企业