亚马逊Alexa再出黑科技：推出新语音识别系统能使准确率提升9.5%

　　亚马逊Alexa部门的研究人员最近发布了两篇关于语音识别的论文，远程语音识别的频域多声道声学模型和远程语音识别的多几何空间声学模型，（这两篇论文将于下月在布莱顿举行的第44届ICASSP国际声学、语音与信号处理会议上发表）。论文中他们提出了一种新的声学建模框架，通过优化语音增强和语音识别并统一其优化过程，从而达到提高性能的目的。在实验中，当使用新模型的双麦克风系统相对于使用现有波束成形技术的七麦克风系统，语音识别误差率降低了9.5％。

　　多麦克风阵列的优劣势

　　据悉目前通过多麦克风阵列提高语音识别准确率已然流行许久。这也是目前最行之有效的一个方式，但是有利就有弊，传统的多麦克风阵列仅解决语音增强问题，或者将语音与噪声分离。而语音识别这个问题则被单拎出来独立解决。相关实验结果表明，这种方法所取得的效果并不太好。

　　亚马逊研究人员开发新声学模型框架

　　此次亚马逊的研究人员开发的新声学模型框架，有望改写这一现状，他们在论文中描述了一种多传声器方法，它取代了确定波束形成器（在传感器输出上操作的空间滤波器，以增强波的振幅）方向和用单个神经网络识别语音信号的单独的手工编码算法。亚马逊目前的回声扬声器系列可以动态调整波束形成器以适应新的声学环境。但是，通过在不同环境下的大型语料库上训练单个模型，研究人员能够去掉适应步骤。

　　传统技术旨在将单个[声束]转向任意方向，但这是一种计算密集型的方法，”Alexa语音小组的语音科学家Kenichi Kumatani在一篇博客文章中解释道。“使用Echo智能扬声器，我们将多个波束形成器指向不同的方向，并确定产生最清晰语音信号的波束形成器……这就是为什么Alexa可以理解您的天气预报请求，即使电视噪音就在离你很近的地方。”

　　单神经网络和传统模型都将波束形成器的输出以对数滤波器组能量的形式传递给特征提取器，或者以多个不规则频段的信号能量快照进行传递。在传统模型中，它们根据背景噪声的估算进行归一化，抽取器的输出被传递给一个人工智能系统，该系统用于计算不同语音信息的短单位相对应的特征。

　　根据论文作者的观点，如果模型的每个组件（例如，特征抽取器和波束形成器）分别初始化，性能就会提高。他们补充说，不同的培训数据使模型能够处理不同设备类型的麦克风配置范围。

　　Kumatani说：“除其他优点外，这意味着新设备的ASR系统，或使用较少的设备，可以从更广泛采用的设备生成的交互数据中获益。”

　　论文地址：（回复亚马逊也可直接获取百度云链接）

　　https://arxiv.org/pdf/1903.06539.pdf

　　https://arxiv.org/pdf/1903.05299.pdf

　　当然更多技术细节可以点击下方原文链接

　　https://developer。amazon。com/zh/blogs/alexa/post/c47b5538-732c-4cb9-980f-14d79f91c6b9/joint-training-on-speech-signal-isolation-and-speech-recognition-improves-performance

专题

金猪送福 2019新...: CTI论坛专题策划：金猪送福 2019新春致辞[详细]

2018年中国国际信...: 2018年中国国际信息通信展(PT展)将于9月26至28日在北京...[详细]

第38届海湾信息技...: 2018年10月14日-18日，作为全球三大IT展之一、中东地区...[详细]

滴滴事件的反思与前瞻: 　　2018年8月24日下午，浙江温州乐清市20岁女孩赵某在...[详细]

评论排行

推荐阅读

专题

大家都在看

CTI论坛会员企业