构建下一代ASR：语音情感识别应用程序

老秦夜译

　　CTI论坛(ctiforum.com)（编译/老秦）:在2021年冬季出版的《语音技术》（Speech Technology）中，我讨论了语音情感识别（SER）的潜在使用案例及其增强客户体验的能力（“语音情感识别：用户体验的下一步”）。现在，让我们继续讨论SER的挑战，以及如何构建下一代SER应用程序。

　　真实语音情感数据集的可用性有限

　　作为一个领域，SER已有20多年的历史，但与自动语音识别（ASR）相比，SER相对较新。今天，由于人工智能在该领域的应用，ASR已经真正起飞。另一方面，SER的速度较慢，因为与ASR不同，用于训练AI模型的数据相当有限。

　　传统的SER数据集要么是作用的，要么是诱导的。表演数据集是由付费演员用特定的情感说出固定的短语创建的。诱导数据集比这些稍有改进，通过让演讲者观看特定的片段或让他们想象特定的情况，可以引发某些情绪。这些数据集是稀疏的，我们今天所设想的那种SER用例需要在交互式对话中进行自动情感检测；在这些数据集上训练的人工智能模型在现实世界中不会很好地工作。在预定义/有限情绪的语音片段上训练和测试的SER系统将无法在实际使用中处理自发语音。

　　请注意，约束条件不是真实世界充满情感的语音的可用性，而是对数据进行注释/标记以创建标准化数据集。与其他类型的数据（例如图像）相比，标记语音的情感内容可能更加主观。这就引出了下一个问题：语音情感建模。

　　情感建模是复杂的

　　语音情感建模，即如何表达嵌入语音中的情感，既复杂又关键。传统的方法之一是将语音情感建模为愤怒、不信任、恐惧、快乐、悲伤或中性的主要类别之一。与基于离散类别的方法相比，机器学习更倾向于基于维度的方法。在前者中，使用了语音的声学特征，包括语言和非语言。可以使用声音（光谱信息、能量）、韵律（语调、强度、节奏）等技术特征的组合来训练SER模型。

　　非语言发声，如笑、叹气、呼吸和犹豫/暂停，包含用于情绪检测的有用信号。我们还需要考虑非情绪性条件，这些条件与声音听起来如何有关，例如疲劳、感冒、饮酒或其他物质。面向消费者的SER应用必须处理多种语言、跨文化语音模式、远场声学、说话人识别、群体动力学、语音转换等问题。

　　尽管我们在这里讨论的是SER，但任何其他非语音线索（如视觉信息）也可以作为模型的输入。例如，在某些场景中，音频和视频内容都可能可用。语音文本本身可以使用自然语言处理（NLP）进行分析。除了字面上的解释，NLP有可能帮助发现讽刺或幽默。

　　所有这些都表明了拥有高质量数据的重要性。数据集的丰富性将决定SER的性能。机器学习技术在这里扮演着重要角色：

半监督学习技术可用于标记数据。在这里，人类研究人员标记一小部分数据，并让算法标记语料库的其余部分。
这种方法的一个扩展是主动学习，在这种学习中，有一个人在循环中，以提高自动标签的质量。在主动学习中，如果算法对其数据分类的可信度较低，它会将语音数据路由到人工注释器。
合成语音数据可使用少量真实语音生成，可使用生成对抗网络（GAN）等技术使其接近真实语音质量。
转移学习是指将知识从一个环境应用到另一个环境，可能是有用的。示例包括利用成人情绪模型进行儿童情绪识别训练，或使用非语音音频（如音乐）训练SER模型。

　　总之，语音情感识别是一个复杂的领域，包括语言和非语言、上下文甚至视觉的许多活动部分。机器学习和人工协助将在下一代SER应用中发挥重要作用。

　　作者：Kashyap Kompella

　　原文网址：

　　https://www.speechtechmag.com/Articles/Columns/Interact/Building-the-Next-Generation-of-ASR-Speech-Emotion-Recognition-Apps-148837.aspx

专题