您当前的位置是:  首页 > 资讯 > 文章精选 >
 首页 > 资讯 > 文章精选 >

评估虚拟助理(IVA):如何确定哪一个适合你?

2021-06-25 09:51:38   作者:   来源:   评论:0  点击:


  CTI论坛(ctiforum.com)(编译/老秦):也许你一直在考虑在你的业务中使用智能虚拟助理(IVA)。您希望自动化客户服务,帮助您的客户在您的网站上找到他们想要的内容,或者为您的员工提供工具。在任何一个搜索引擎上呆上几分钟,都会发现无数的供应商说他们的产品是“智能的”、“自然的”或者“就像和人说话一样”;其他人吹嘘自己是“真正的会话”和“革命”,还有许多其他发光的描述。当然,你想使用最好的技术,但你怎么知道哪一个是最好的,甚至哪一个替代品是好的,足以完成你心目中的工作?
 
  显然,简单地看供应商网站并不是最好的方法。每个供应商都会声称他们的技术是最好的。看看YouTube的演示和与销售人员交谈也不会有什么帮助。供应商会有偏见,演示是基于非常仔细策划的互动。随便试用一个系统几分钟就会产生误导性的结果。是否有一个可靠的,客观的方法来衡量系统的准确性?
  其他产品可以与标准度量进行比较。我们有每加仑汽车的英里数,电器的能源消耗量,显示器的屏幕分辨率。不幸的是,我们还没有针对智能虚拟助理的这些指标。即使我们把“最好的”缩小到“最准确的”,主观性仍然有很大的空间。
  为了可靠地比较系统,我们如何测量智能虚拟助理的精确度?不幸的是,我们没有任何官方标准,但这里有一些似乎很有希望的想法。
  测量IVAs的方法
  让我们首先说,任何公平的比较都必须基于广泛接受的衡量标准和程序。一个实际的评估也不能太贵或太费时,所以我们不需要完美,只是一个足够好的比较。
  首先,这里有一些有前途的策略。
  1、系统可能以两种不同的方式出错,因此我们必须同时衡量这两种方式。系统可能会给出错误的答案,但也可能无法给出它应该知道的问题的答案。从技术上讲,给出错误的答案是不准确的。没有给出系统应该知道的答案是调用失败。在大量的测试问题中,我们可以得到整体关于调用失败和精确性的分数,这将给我们系统的准确性一个分数。虽然调用失败和精确性不是官方标准,但它们被研究人员广泛接受。
  2、一个较新的指标是敏感性和特异性平均值(SSA)。这是谷歌为其聊天机器人Meena开发的。测试人员查看成对的用户查询和系统响应,并根据它们的敏感程度和具体程度对响应进行评分。“敏感性”的含义是显而易见的。特异性会惩罚像“那很好”这样的一般性回答。像“那很好”这样含糊不清的回答是数字助理试图掩盖其无知的信号。敏感性和特异性得分相结合,得到一个总的SSA得分。这一指标的一个吸引人的特点是,对回答打分的用户不必知道正确的答案,他们只需能够决定答案的“合理性”和“具体性”如何。
  3、另一个值得一提的指标是亚马逊AlexaPrize中使用的指标。它不能测量准确度;相反,它通过跟踪用户与应用程序交互的时间来衡量应用程序的吸引力。对于像老年伴侣这样的应用程序来说这可能是一个有用的指标,老年同伴的目标是让用户参与应用程序,但精度不是一个主要要求。
  评估IVA表现
  不仅要使测量标准化,而且评价也要遵循一个标准过程:(1)有可重复的结果;(2)外部变量控制;以及(3)防止游戏结果。一个很好的例子是2015年著名的大众汽车排放丑闻,当时大众汽车在测试过程中关闭了排放装置,这样他们就可以谎报更好的排放评级。他们被抓住了。结果对大众汽车不利;其首席执行官因此辞职。
  评估过程的一些最佳做法包括:
  1、对同一个应用程序进行跨系统比较,这可以更通俗地称为“比较苹果”。比较执行不同应用程序的系统是不公平的,因为一个应用程序可能比另一个更难。例如,一个应用程序中可能有更多的意图和实体,这将降低该系统的分数。用于开发应用程序的数据可以是一个开放的公共数据集,就像Clinc开发的数据集一样,也可以是特定垂直方向上应用程序的内部数据。对于没有特定应用程序(比如Alexa或Siri)的泛型助手,会有一些已发布的数据,比如我的应用程序中使用的数据。
  2、非重叠数据的培训和测试系统。如果一个系统是在以后测试的数据上训练的,那么当各种新的、以前看不见的数据出现时,测试将不能代表实际的工作条件。这将是一个游戏系统的例子。
  把它们放在一起
  那么回到最初的问题,如何正确评估智能虚拟助理呢?--下面是我们的一般建议。首先,不要把评估建立在主观测试的基础上。一个评估,包括几分钟的试用演示可能会非常误导。第二,使用常见的测量方法,比如调用、精确度和SSA。第三,遵循一个标准流程:使用相同的数据集进行所有比较,并将训练数据和测试数据分开。
  遵循这些准则将导致可靠和有意义的比较。将这些信息与其他的需求开发工具、运行时成本、易维护性结合起来,您就可以成功地部署智能虚拟助理了。
  声明:版权所有 非合作媒体谢绝转载
  作者:Deborah Dahl
  原文网址:
  https://www.speechtechmag.com/Articles/Columns/Standards/Assessing-IVAs-How-Do-You-Determine-Which-One-Is-Right-for-You-147371.aspx
 
【免责声明】本文仅代表作者本人观点,与CTI论坛无关。CTI论坛对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

专题

CTI论坛会员企业