您当前的位置是:  首页 > 资讯 > 文章精选 >
 首页 > 资讯 > 文章精选 >

构建下一代ASR:语音情感识别应用程序

2021-09-09 09:29:29   作者:   来源:CTI论坛   评论:0  点击:


  CTI论坛(ctiforum.com)(编译/老秦):在2021年冬季出版的《语音技术》(Speech Technology)中,我讨论了语音情感识别(SER)的潜在使用案例及其增强客户体验的能力(“语音情感识别:用户体验的下一步”)。现在,让我们继续讨论SER的挑战,以及如何构建下一代SER应用程序。
  真实语音情感数据集的可用性有限
  作为一个领域,SER已有20多年的历史,但与自动语音识别(ASR)相比,SER相对较新。今天,由于人工智能在该领域的应用,ASR已经真正起飞。另一方面,SER的速度较慢,因为与ASR不同,用于训练AI模型的数据相当有限。
  传统的SER数据集要么是作用的,要么是诱导的。表演数据集是由付费演员用特定的情感说出固定的短语创建的。诱导数据集比这些稍有改进,通过让演讲者观看特定的片段或让他们想象特定的情况,可以引发某些情绪。这些数据集是稀疏的,我们今天所设想的那种SER用例需要在交互式对话中进行自动情感检测;在这些数据集上训练的人工智能模型在现实世界中不会很好地工作。在预定义/有限情绪的语音片段上训练和测试的SER系统将无法在实际使用中处理自发语音。
  请注意,约束条件不是真实世界充满情感的语音的可用性,而是对数据进行注释/标记以创建标准化数据集。与其他类型的数据(例如图像)相比,标记语音的情感内容可能更加主观。这就引出了下一个问题:语音情感建模。
  情感建模是复杂的
  语音情感建模,即如何表达嵌入语音中的情感,既复杂又关键。传统的方法之一是将语音情感建模为愤怒、不信任、恐惧、快乐、悲伤或中性的主要类别之一。与基于离散类别的方法相比,机器学习更倾向于基于维度的方法。在前者中,使用了语音的声学特征,包括语言和非语言。可以使用声音(光谱信息、能量)、韵律(语调、强度、节奏)等技术特征的组合来训练SER模型。
  非语言发声,如笑、叹气、呼吸和犹豫/暂停,包含用于情绪检测的有用信号。我们还需要考虑非情绪性条件,这些条件与声音听起来如何有关,例如疲劳、感冒、饮酒或其他物质。面向消费者的SER应用必须处理多种语言、跨文化语音模式、远场声学、说话人识别、群体动力学、语音转换等问题。
  尽管我们在这里讨论的是SER,但任何其他非语音线索(如视觉信息)也可以作为模型的输入。例如,在某些场景中,音频和视频内容都可能可用。语音文本本身可以使用自然语言处理(NLP)进行分析。除了字面上的解释,NLP有可能帮助发现讽刺或幽默。
  所有这些都表明了拥有高质量数据的重要性。数据集的丰富性将决定SER的性能。机器学习技术在这里扮演着重要角色:
  • 半监督学习技术可用于标记数据。在这里,人类研究人员标记一小部分数据,并让算法标记语料库的其余部分。
  • 这种方法的一个扩展是主动学习,在这种学习中,有一个人在循环中,以提高自动标签的质量。在主动学习中,如果算法对其数据分类的可信度较低,它会将语音数据路由到人工注释器。
  • 合成语音数据可使用少量真实语音生成,可使用生成对抗网络(GAN)等技术使其接近真实语音质量。
  • 转移学习是指将知识从一个环境应用到另一个环境,可能是有用的。示例包括利用成人情绪模型进行儿童情绪识别训练,或使用非语音音频(如音乐)训练SER模型。
  总之,语音情感识别是一个复杂的领域,包括语言和非语言、上下文甚至视觉的许多活动部分。机器学习和人工协助将在下一代SER应用中发挥重要作用。
  声明:版权所有 非合作媒体谢绝转载
  作者:Kashyap Kompella
  原文网址:
  https://www.speechtechmag.com/Articles/Columns/Interact/Building-the-Next-Generation-of-ASR-Speech-Emotion-Recognition-Apps-148837.aspx
 
【免责声明】本文仅代表作者本人观点,与CTI论坛无关。CTI论坛对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

专题

CTI论坛会员企业