人工智能情绪检测的发展现状

老秦夜译

　　CTI论坛(ctiforum.com)9月5日消息（编译/老秦）：随着短短几年的巨大技术进步，关于人工智能是否可以感知的争论已经走出了科幻小说和好莱坞的圈子，进入了世界各地大大小小的公司的董事会。商界领袖提出的真正问题是：人工智能情绪检测是否准备好迎接黄金时代？

　　毫无疑问，拥有可以识别人类情绪的人工智能可能对联络中心、营销、销售、招聘和许多其他业务功能有益，但我们真的希望机器解释或取代人类互动吗？我们相信他们能准确地做到这一点吗？

　　看起来是这样。情绪检测开始进入各种业务流程，研究公司 MarketsandMarkets 预测全球情绪检测和识别市场将从今年的 236 亿美元增长到 2027 年的 433 亿美元，复合年增长率为 12.9%。

　　MarketsandMarkets 的报告称，这种预期的增长是由于对基于语音的情绪检测系统分析情绪状态和社交智能人工智能的需求不断增长。这种需求的部分原因是对卓越运营的需求增加。但也有许多因素阻碍了越来越多的采用。主要问题之一是对所涉及的术语和技术缺乏明确性。

　　术语"情绪检测"和"情绪分析"经常互换使用，但也有区别。

　　据基于 AI 的语音识别和联络中心解决方案提供商 Deepgram 的专家称，情绪分析通常是基于文本的学习分类任务。它可能对单个句子、段落或整个文档进行操作。 Deepgram 专家在最近的一篇博文中写道，情绪分析有多种用途，包括分析客户反馈、监控社交媒体对话、跟踪品牌声誉、衡量公众对某个主题或问题的看法以及评估客户满意度。

　　另一方面，情绪检测，有时也称为情绪识别，通常依赖于音频，使用语调、音量和速度等因素来确定说话者所感受到的情绪，根据 Deepgram 的说法，通常编码为几个类别之一，如快乐、悲伤、生气等。

　　情绪检测以简单的分析技术无法提供的方式为客户对公司的态度提供线索。

　　"情感是我们所有人的一部分，"CallMiner 的人工智能副总裁 Rick Britt 说。 "我们都会感到愤怒和沮丧，快乐和幸福。但我们也以不同的方式分享这些情绪。例如，有些人在生气时会变得非常安静和轻声细语，而不是大声而快速地说话。众所周知，检测和理解情绪很困难。"

　　Britt 补充说，了解客户对话中的情绪，例如客户是否对公司或产品感到沮丧或满意，对于面向客户的组织来说非常有用。 "虽然检测情绪对机器来说很困难，就像对人类一样，但深度学习的进步正在帮助公司识别客户在互动中表现出广泛情绪的方式。"

　　Britt 说，另一个使问题复杂化的事实是，情绪对于他们所参与的个人和组织来说都是独一无二的。每个人都有个人情感基线，可能是情境性的。客户在与收债员互动时表现出的情绪反应与跟电子零售商互动时表现出的情绪反应大不相同。

　　"当组织能够有效和准确地理解情绪时，他们可以更好地对客户对话中发生的事情采取行动，" Britt 说。 "这可以包括帮助联络中心或客户服务座席更好地处理情感互动，例如当他们可能与需要额外照顾和同情的弱势客户互动时。或者了解客户在对话期间的情绪，以便他们可以查明如何将开始为消极而结束为积极的互动所采取的成功步骤。这些见解可以推动更好的座席入职和指导工作。"

　　这种能力对于联络中心很重要，因为当组织可以在对话中检测到情绪时，他们可以在问题成为真正问题之前发现问题，为座席提供更多数据驱动的绩效反馈，从过去的交互中学习以改善未来的客户结果等等，Britt 说。

　　"人类交流很复杂，包含语言和非语言元素，"Outreach 的高级应用科学家 Kushal Lakhotia 补充道。 "情感是人类表达自我的重要非语言成分。它通过音频和视觉提示来传达，例如语音和面部表情中的语调。情绪识别技术提取语音识别的互补信号，从而有助于充分了解一个人试图交流的内容。"

　　Lakhotia 表示，此类数据在对话智能应用程序中特别有用，它可以总结对话的要点，这些要点需要更深入地理解一个人所说的话之外的信息。

　　语言学是最好的情绪检测器

　　然而，Verint 的语音和文本分析市场副总裁 D. Daniel Ziv 反驳说，即使 Verint 和其他公司提供的技术可以识别音量、提高说话速度以及类似的客户满意度或情绪指标，对公司和特定互动的不满意，实际使用的词语比其他指标更能反映客户的感受。

　　"并不是所有的脏话都有四个字母，有些词自然而然地比其他词带有更多的情感，"Ziv 解释说。 "我们可以统计识别哪些词带有更多的情感。因为我们现在的转录非常准确，与使用音调、音高、速度和其他可以传递情感的东西相比，这往往会产生非常准确的结果。"

　　Ziv 补充道："如果我非常生气，而且我没有说过一个生气的话，但 [满意度评分] 仅基于语气，那么很有可能是误报。背景中可能有一个婴儿在哭泣，我可能是从嘈杂的公共汽车或机场打来的。我们做了很多测试，发现使用基于语言的情感和一些基于声学的证据更准确。"

　　根据 Ziv 的说法，串扰--当客户与座席交谈时，反之亦然--是真实情绪的另一个强有力的指标，谈话中长时间的沉默或间隙也是如此。 "我们已经测试了五种不同类型的算法，它们使用声学分析进行情绪检测。纯声学是非常不准确的。仅语言非常准确，而且比以前更准确，因为我们的转录现在更准确，"他说。

　　Ziv 说，联络中心客户越来越多地寻求情绪检测分数，因为他们想要情绪分析并希望取代调查，以便他们可以自动覆盖 100% 的交互，而不是只覆盖包括已完成关注在内的一小部分客户交互情绪调查。

　　更好的情绪预测器

　　据 Ziv 称，情绪检测功能在联络中心变得越来越流行，因为它们比净推荐值更能真实地反映客户情绪。他说，获取 NPS 数据需要客户付出努力，其中许多人只是不想被打扰。 "客户厌倦了 [NPS 调查]，因为他们受到了轰炸。因此，响应率有所下降。"

　　Ziv 补充说，即使客户确实做出了回应，NPS 调查也没有详细说明客户为什么会推荐或不会推荐一家公司。 "这没什么帮助。它有助于识别趋势，但并不能真正帮助解决问题。因此，转变是使用我们从客户那里获得的实际信息。"

　　Ziv 进一步解释说，公司希望从通过语音和文本交互显示的情绪以及围绕这些交互的上下文中提取真实的客户情绪。 "所以现在我们对推动情绪高涨和低迷的原因有了更丰富的了解。"

　　Lakhotia 表示，虽然过去几年解决方案变得更加准确，但这只是情绪检测方面的最新进展之一。

　　"口语情感识别是一个专注于副语言学的研究领域，与自动语音识别不同，它需要捕捉语音的韵律元素，"Lakhotia 解释说。 "该领域的研究专注于设计特定的模型来捕捉可以被训练来检测情绪的韵律。然而，随着在语音中使用神经网络进行自我监督学习的发展，该领域已经从专业模型转向通用模型。"

　　Lakhotia 补充说，自我监督学习可以使用大量未标记的数据来训练可以从语音中提取信号的模型。这些模型通常经过数千小时的语音训练，然后这些预训练模型可以适应一系列口语任务，而标记的任务特定数据要少得多。

　　"一些流行的 SSL 模型在过去几年中被广泛用于多项口语任务，包括 CPC、wav2vec 2.0 和 HuBERT，"Lakhotia 说。 "这反过来又导致了 SUPERB、HEAR 和 LeBenchmark 等标准化基准的引入，这些基准通过引入一种一致的方式来比较多个 SSL 模型对一系列任务（包括口语情感识别）进行比较，从而帮助推动了该领域的发展。"

　　Lakhotia 表示，虽然口语情感识别是一个活跃的研究领域，但用于它的数据集是更广泛的多模式数据集的子集，例如 IEMOCAP、CREMA-D 和 RAVDESS，其中包括声音数据和面部表情。此类数据集的存在正在推动超越语音并结合视听信号的多模态情感识别研究。

　　流失检测

　　据 Ziv 称，一些公司，尤其是那些流失率高的公司，希望情绪检测能够为座席提供强大的实时指标，以表明特定客户可能会流失，而不是仅仅对去竞争对手发表无意义的评论。

　　"在客户流失方面，你必须考虑其他因素，"Ziv 说，并指出很多时候客户对产品表现出的挫败感可能与销售该产品的公司无关。

　　在某些行业，尤其是电信和保险行业，合同期结束时客户流失率可能非常高。

　　"添加寻找有风险客户的语音类别通常会显着改善这些客户流失模型，"Ziv 坚持说。 "它的准确程度因客户而异。但我们已经看到超过 90% 的准确率，而且我们有时看到客户流失率从 50% 提高到 70%，这很重要。"

　　Ziv 指出，虽然它可以作为流失率的一个很好的指标，但其他因素，例如其他供应商的可用性，也会影响流失率。这在电视领域尤为常见，因为大多数地方只有一个有线电视提供商。虽然也可能有卫星互联网提供商，但现实情况是，在这种情况下沮丧的客户可能别无选择。

　　在对计算机情感检测犹豫不决的其他原因中，有些人认为现有的一些情感检测解决方案，特别是那些包括面部识别技术的解决方案，可能过于个人化。

　　DeepMedia.AI 的创始人兼首席执行官 Rijul Gupta 表示，情感技术必须避免由于当前许多机器学习系统的情感无知而导致的非人性化。 "目前在谷歌翻译（技术正确但缺乏情感）、TikTok Voice（听起来很机器人）的状态下可以看到无灵魂的技术。这些系统中缺乏根深蒂固的情绪检测不会产生消费者的喜悦甚至接受。"

　　据报道，Zoom Video Communications 开始探索情绪检测技术，这引起了超过 28 个人权组织的愤怒。他们敦促 Zoom 停止其在情绪跟踪系统上的工作，该系统旨在分析用户的参与度和情绪。

　　许多行业专家预计，隐私问题在未来几年内将十分突出。但与此同时，对技术的需求将会增长，正如 MarketsandMarkets 预测所证明的那样，技术本身将继续发展。

　　"在过去几年中，在构建可以从视听输入中联合提取信号的自我监督模型方面取得了重大进展，"Lakhotia 说。 "这使得能够使用单个模型对语音和视觉输入进行建模。多模态建模的发展与用于进行实验的高质量视听数据集的存在相结合，将推动该领域超越口语情感识别，并为情感识别建立新的最新成果。"

　　Ziv 说，公司将继续使用情绪检测来帮助推动他们的客户心声工作。 "我认为我们会看到更多针对它采取行动的独特案例，其背后的算法也会有所发展。"

　　然而，Ziv 说，除了算法或情绪评分之外，公司最重要的好处将是能够使用分析实时采取行动，而不是等到交互发生之后。

　　作者：Phillip Britt

　　原文网址：https://www.speechtechmag.com/Articles/Editorial/Features/Interest-Mounts-for-Emotion-Detection-153969.aspx

评论排行

推荐阅读

专题

大家都在看

CTI论坛会员企业