微软语音识别技术再突破！识别能力超越专业听打记录员

　　继去年微软宣布，自行开发的语音识别技术可以达到与人类相当的水准后，近日又宣布，该语音识别技术的准确度，已经正式超越人类，并发布了详细的技术报告。

　　微软语音和对话研究团队在去年10月宣布，运用业界常用的电话录音测试集Switchboard，微软语音识别技术错误率为5.9%，辨识能力可以达到人类的水准，近日则宣布，该语音识别技术的错误率已经降至5.1%，正式超越专业的听打记录人员。

　　语音识别准确度超越人类，是微软过去25年，一直想要达成的目标，微软所采用的电话对话录音测试集Switchboard，是语音研究社群采用了超过20年的测试语音识别系统标准，开发语音识别系统的过程，城程式需要自动记录不同人讲不同议题的对话，像是体育或是政治等。

　　与去年发布的正确率相比，微软用一系列的工具来改善类神经网路声学和语言模型，将此系统的错误率讲低，像是，增加了一项结合卷积式网路和双向的长短期记忆演算法的CNN-BLSTM，双向的长短期记忆演算法是一种时间递归神经网络（RNN），来改善声学模型。

　　此外，微软还透过声音的辨识单元Senone、Frame，以及单词，结合多个声学模型的预测，作为语音识别的方法，并利用过去历史对话纪录，增强语音识别的语言模型，来预测对话接下来会讲的字词，如此一来，可以模型更能够有效地判断对话的主题和内容。

　　这项语音识别是仰赖微软自家的深度学习框架CNTK2.1版，并利用微软的云端计算的基础架构，特别是Azure GPUs，大幅地提升训练模型的效率，也能快速地测试新设计的演算法。

　　微软表示，虽然系统辨识Switchboard的错误率已经达到只有5.1%，是一个非常大的突破，不过，未来还有许多可以继续钻研的问题，像是如何让机器像人一样，在吵杂的环境下，辨识出有腔调的语音、不同风格的说话方式和语言。

　　微软希望可以这项研究结果应用在微软自家的产品和服务上，像是语音个人助理Cortana和认知服务等。未来，不只让机器记录语音内容，还要能理解对话的意思和意图，从语音识别到理解语意，是微软接下来主要发展的语音科技目标。

专题

评论排行