谷歌推出AI非标准语音识别功能，大大降低ASR模型错误率

　　谷歌于5月在I/O上宣布了Euphonia项目：试图使语音识别理解具有非标准语音或障碍的人。谷歌刚刚发布了一篇文章和一篇论文，解释了其人工智能的一些功能。

　　对于那些有运动障碍的人，比如由肌萎缩侧索硬化症(ALS)等退化性疾病引起的人，他们的说话声音根本无法被现有的自然语言处理系统所理解。

　　ASR(自动语音识别)系统通常是从“典型”语音中训练出来的，这意味着代表性不足的群体，比如那些有语音障碍或口音重的群体，不会体验到同样程度的实用功能。

　　目前最先进的ASR模型也会发生高错误率，只有中度言语障碍的ALS，有效地阻止访问ASR依赖的技术。

　　值得注意的是，他们至少在一定程度上要归咎于训练集。这是我们在人工智能模型中发现的那些内隐偏见之一，这些偏见可能会在其他地方导致高错误率，比如面部识别。

　　对谷歌的研究人员来说，这些意味着他们要从ALS患者那里收集数十小时的语音。正如你可能预期的那样，因为每个人受自身状况的影响都不一样，所以适应疾病的影响与适应，比如说，一种不寻常的口音，不是同一个过程。

　　用一个标准的语音识别模型作基准，然后以一些实验性的方式进行调整，在新的音频上进行训练。仅这一点就大大降低了单词错误率，而且对原始模型的更改相对较小，这将意味着在调整到一个新的语音时不需要太多的计算。

　　研究人员发现，当这个模型仍然被一个给定的音素(即像“e”或“f”这样的单个语音)所混淆时，它有两种错误。首先，它不能识别图上的因素，因此不能识别单词。其次，模型必须猜测说话者想要表达的音素，在两个或两个以上单词发音大致相似的情况下，就有可能会选择错误的音素。

　　第二个错误是智能处理的错误。也许你说，“我要回到房子里去”，而系统却不能识别出房子里的“b”和“h”。

　　但这要留给未来去研究。目前，你可以知道的是该团队发表的一篇名为“在有限的数据下，个性化语音障碍和重音语音的ASR”的论文，将于下月在奥地利举行的Interspeech大会上发表。

专题

评论排行