语音开发平台的现状

　　CTI论坛(ctiforum.com) （编译/老秦）：语音供应商正在探索新的途径来扩展其开发工具的使用。增强的建模精度，改进的后端集成，对其他接口的扩展以及更开放的系统是2019年的重点领域。2020年的重点是标准接口的开发和可移植性的提高。

　　年度回顾

　　在构建解决方案时，语音供应商致力于为用户提供公司应用程序的直观界面。亚马逊于6月份宣布的Alexa演示语言就是一种用于用户界面设计的工具集。它具有技能个性化功能，使开发人员可以使用Alexa应用程序捕获的语音配置文件来创建个性化技能。语音配置文件可解决首选项，记住设置并区分用户。

　　改善语音识别是人们持续关注的领域。十月份，亚马逊在其Alexa技能套件中添加了三套新工具。此开发工具包可帮助公司建立自助服务应用程序。其中两个功能是"自然语言理解（NLU）评估工具"和"话语冲突检测"，旨在提高语音模型的准确性。前者测试成批的话语，并将语音应用程序的自然语言处理（NLP）模型对它们的解释与期望进行比较。为了提高结果质量，NLU评估工具依赖于消费者通常说的命令，而不是由交互模型构建的样本话语。结果，系统通过识别有问题的话语来隔离训练区域。该工具还支持回归测试，允许开发人员在向语音应用添加新功能后创建并运行评估。

　　NLU评估工具使用生产中的数据以匿名的高频现场话语进行测量，该数据旨在帮助调整对语音模型所做的任何更改的准确性。

　　话语冲突检测功能可以检测偶然映射到多个意图的话语，这是可能会降低NLP模型准确性的一个因素。该功能会在构建每个模型时自动运行，并且可以在发布应用程序的第一个版本之前使用，也可以随着时间的推移添加意图而使用。

　　除了前端开发之外，在过去几个月中，还强调了与后台业务应用程序的集成。9月，Nuance Communications扩展了Nuance智能互动平台的功能，该平台在市场营销业务流程中增加了语音功能。开发环境现在具有连接到：

消息服务，以便公司可以跨多个渠道自动化和改善人工协助的客户参与度；
座席AI服务，旨在为座席和主管提供相关的实时客户信息；
安全和生物识别服务，以改进身份验证并防止欺诈；
后端集成，因此该平台可与提供所需信息的第三方认知引擎和数据源一起使用。

　　数据分析已成为第三方开发人员关注的另一个领域。亚马逊增加了一个Get Metrics API，该API与第三方数据聚合平台一起使用，允许开发人员评估各种指标，例如唯一客户。它还支持创建监视器，警报和仪表板，以突出可能影响客户参与度的更改。

　　语音开发平台传统上具有不同程度的开放性。例如，苹果公司一直致力于将其系统与自己的解决方案联系在一起，这给开发人员使用替代产品带来了挑战。十月份，供应商通过允许Siri使用第三方应用程序来打开其系统。用户可以调用第三方应用程序（如WhatsApp）来代替Apple解决方案（如其自己的Messages应用程序）。但是，第三方将需要将该功能添加到其软件中。

　　展望未来

　　对于语音开发人员而言，可移植性一直是一项长期挑战。"语音应用程序开发人员发现，每当他们将软件从一个语音引擎转移到另一个语音引擎时，他们都必须重写软件的大部分内容，"Conversational Technologies负责人，万维网联盟多模式交互工作组主席Deborah Dahl指出。

　　可移植性涉及许多问题。旧版系统旨在在数据中心的服务器上运行。许多新系统具有云优先设计。将软件从一种迁移到另一种是一项复杂的工作。Nuance的智能参与平台具有与云无关的灵活性，允许组织在Nuance的托管，公共和私有云中部署相同的解决方案。

　　设备支持是另一个重点领域。Nuance全渠道解决方案高级副总裁Tony Lorentzen表示："我们将继续看到语音成为新界面，越来越多的设备将启用语音功能。"

　　然后，这些解决方案必须与传统解决方案集成。亚马逊的Alexa演示语言使开发人员可以为带有屏幕的设备（例如台式机和笔记本电脑）创建Alexa技能。

　　另一个可移植性问题是将软件从一个系统迁移到另一个系统。从历史上看，市场缺乏标准接口，因此企业和第三方每次使用不同的语音引擎时都必须完成共同的工作，例如分配存储。

　　十月份，Nvidia推出了Jarvis，这是一种多模式AI软件开发套件，该套件将语音，视觉和其他传感器整合到一个系统中。该工具支持用于构建，训练和部署GPU加速的人工智能系统的工作流，该系统可以结合手势和眼睛运动等视觉提示以及语音来建立上下文。

　　9月，亚马逊牵头成立了语音互操作性计划小组，这是一个创建标准语音开发接口的计划。该小组设定了以下四个目标：

开发与其他解决方案一起使用的语音服务，同时保护客户的隐私和安全；
构建语音功能的设备，通过多个同时的唤醒词来促进选择和灵活性；
发布使更容易在单个产品上集成多个语音服务的技术和解决方案；
加速机器学习和对话式AI研究，以改善语音服务的广度，质量和互操作性。

　　包括百度，微软，Salesforce.com和Verizon在内的30多家公司支持这项工作。苹果和谷歌是缺席者。该小组的第一批成果有望在2020年到来。

　　作者：Paul Korzeniowski

　　原文网址：https://www.speechtechmag.com/Articles/Editorial/Features/The-State-of-Speech-Developer-Platforms-139108.aspx

评论排行

推荐阅读

专题

大家都在看

CTI论坛会员企业