您当前的位置是:  首页 > 新闻 > 国际 >
 首页 > 新闻 > 国际 >

微软语音识别技术再突破!识别能力超越专业听打记录员

2017-08-23 11:25:05   作者:   来源:iThome   评论:0  点击:


微软语音识别技术再突破!识别能力超越专业听打记录员
  继去年微软宣布,自行开发的语音识别技术可以达到与人类相当的水准后,近日又宣布,该语音识别技术的准确度,已经正式超越人类,并发布了详细的技术报告。
  微软语音和对话研究团队在去年10月宣布,运用业界常用的电话录音测试集Switchboard,微软语音识别技术错误率为5.9%,辨识能力可以达到人类的水准,近日则宣布,该语音识别技术的错误率已经降至5.1%,正式超越专业的听打记录人员。
  语音识别准确度超越人类,是微软过去25年,一直想要达成的目标,微软所采用的电话对话录音测试集Switchboard,是语音研究社群采用了超过20年的测试语音识别系统标准,开发语音识别系统的过程,城程式需要自动记录不同人讲不同议题的对话,像是体育或是政治等。
  与去年发布的正确率相比,微软用一系列的工具来改善类神经网路声学和语言模型,将此系统的错误率讲低,像是,增加了一项结合卷积式网路和双向的长短期记忆演算法的CNN-BLSTM,双向的长短期记忆演算法是一种时间递归神经网络(RNN),来改善声学模型。
  此外,微软还透过声音的辨识单元Senone、Frame,以及单词,结合多个声学模型的预测,作为语音识别的方法,并利用过去历史对话纪录,增强语音识别的语言模型,来预测对话接下来会讲的字词,如此一来,可以模型更能够有效地判断对话的主题和内容。
  这项语音识别是仰赖微软自家的深度学习框架CNTK2.1版,并利用微软的云端计算的基础架构,特别是Azure GPUs,大幅地提升训练模型的效率,也能快速地测试新设计的演算法。
  微软表示,虽然系统辨识Switchboard的错误率已经达到只有5.1%,是一个非常大的突破,不过,未来还有许多可以继续钻研的问题,像是如何让机器像人一样,在吵杂的环境下,辨识出有腔调的语音、不同风格的说话方式和语言。
  微软希望可以这项研究结果应用在微软自家的产品和服务上,像是语音个人助理Cortana和认知服务等。未来,不只让机器记录语音内容,还要能理解对话的意思和意图,从语音识别到理解语意,是微软接下来主要发展的语音科技目标。
【免责声明】本文仅代表作者本人观点,与CTI论坛无关。CTI论坛对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

专题