2022年语音技术行业现状之语音开发平台

　　CTI论坛(ctiforum.com)3月15日消息（编译/老秦）：语音平台市场今年似乎正在接近一个重要的拐点。最初围绕这项技术的热情已经消退。部署继续增加，但比最初预期的要缓慢。因此，供应商正在改变他们的优先事项，目标是这些变化将带来突破，从而推动市场采用。

　　语音应用程序开发平台是构建商业和消费者语音应用程序的基础。创建为用户提供语音界面的基础设施是一项艰巨的任务，需要许多构建块。一些区块已经到位，但许多仍在开发中。

　　年度回顾

最初，供应商的努力集中在添加更多语言和扩展其开发工具的范围。这些领域的努力仍在继续。
3 月，微软在 Azure 神经文本转语音中增加了对 11 种语言的支持。该供应商现在可以使用 60 种语言、142 种神经语音和总共 219 种语音。
4 月，提供语音人工智能和会话智能技术的SoundHound将其Houndify Voice AI 平台扩展到 22 种语言。有了它，开发人员可以将对话智能添加到他们的产品和服务中。
开发人员喜欢使用某些工具、语言和技能。作为回应，领先的供应商也为其产品线添加了新的开发辅助工具。
7 月，亚马逊发布了迄今为止最大的新工具版本。开发人员现在可以构建特色技能卡，以在主屏幕旋转中提升他们的技能。

　　此外，现在当 Alexa 响应常见请求时会建议他们的技能，例如"Alexa，给我讲个故事"；"Alexa，我们来玩个游戏吧"；或"Alexa，我需要锻炼。"个性化的技能建议基于客户对相似技能的使用。新的上下文发现机制允许客户使用自然语言并找到技能。

　　在礼包中是开发人员为他们的技能创建小部件的一种方式。有了它们，客户可以通过屏幕输入和语音与 Echo Show 或其他 Alexa 设备进行交互。

　　展望未来

　　增加语言和工具的数量是有帮助的，但并不能解决主要的市场障碍：公司仍然难以构建语音应用程序部署的业务案例。"很少有公司来找我们构建纯语音应用程序，"Chant 总裁兼创始人 John Earle 解释道。

　　大约十年前宣布语音接口时，供应商模仿移动应用程序开发市场的努力，但语音并没有像移动应用程序那样迅速流行或变得无处不在。

　　市场领导者亚马逊的经验有助于说明该行业的演变并确定该行业的现状。一方面，供应商已经相当成功。超过 900，000 名开发人员创建了超过 130，000 项 Alexa 技能，这些技能用于广泛的主要消费者应用程序。

　　但在最初的匆忙之后，技能开发出现了显着下降。 2019 年前 10 个月，Alexa 技能收入仅为 140 万美元，远低于亚马逊 550 万美元的目标。从那以后，亚马逊没有公布其技能数量、开发者收入或目标。

　　为什么收入会下降？"最初的语音技能很丰富，但在许多情况下并不是很有用，尤其是对企业而言，"对话技术负责人兼万维网联盟多模式交互工作组主席 Deborah Dahl 解释道。"它们发展迅速，在许多情况下没有经过深思熟虑。"

　　不过，企业寄予厚望。例如，Uniphore首席技术官BalajiRaghavan表示，他们必须进行检查以保护客户数据隐私。他补充说，最小的错误可能会导致严重的业务问题，例如当销售电话将呼叫者的意图解释为"去"而不是"不"时，或者当呼叫中心的客户因失去亲人而哭泣时，但语音机器人会尝试快速结束通话，以尽量减少处理时间。

　　由于其他一些原因，语音应用程序开发落后于移动市场应用程序开发。一个因素是前者经过多年成熟并建立了一个强大的生态系统，代码可以轻松混合和匹配。标准已经出现，使供应商和第三方可以轻松混合和匹配软件。因此，兼容的软件具有高水平的互操作性和可移植性，使公司可以花更多的时间为他们的应用程序添加所需的功能，而不是试图让基本的基础设施部分协同工作。

　　因此，正在多方面开展工作以解决这些缺点。在某些情况下，供应商负责铲子工作。

　　亚马逊一直处于语音互操作性计划 (VII) 的前沿。其目标是开发通用接口，以便多个语音座席理同时在单个设备上工作。

　　亚马逊还开发了多座席设计指南，为创建此类解决方案提供了最佳实践。该计划获得了 80 多家供应商的支持，其中包括消费电子品牌、汽车制造商、电信运营商、硬件解决方案提供商和系统集成商。杜比、Facebook、Garmin 和小米都支持这项工作。

　　该计划具有潜力，但它专注于亚马逊自身生态系统的开发。范围更广的替代方案正在出现。

　　2020 年 6 月，Linux 基金会成立了开放语音网络（OVN）。该计划源于麻省理工学院 (MIT) Auto-ID 实验室、凯捷咨询和英特尔的合作。

　　该联盟确定语音座席需要合作，有时还需要相互合作。"开放语音网络 (OVN) 认为，互操作性应该使语音助手能够共享对话、数据、上下文和控制，"Larson技术服务副总裁兼开放语音网络高级顾问Jim Larson说。

　　OVN 概述了六个语音座席互操作性功能：

调用远程语音座席。目标是为语音提供与现在互联网上的数据相同的普遍功能。语音座席地址使其能够到达任何网络目的地，无论平台或位置如何。
支持语音注册系统。在互联网上，域名系统 (DNS) 通过互联网将特定网站的请求路由到指定网站。语音注册系统 (VRS) 使语音座席所有者能够注册其软件的唯一名称，因此用户可以直接连接到它们。
在语音座席之间切换。目前，语音座席是隐蔽的。该行业必须转向用户可以调用多个语音座席的模型。
处理隐式请求。现在，用户必须直接提问。他们应该能够提出隐含的请求。
在语音座席之间共享数据和上下文。消费者不希望必须回答每个语音座席的相同问题。语音座席需要能够共享它收集的任何用户数据并将其放入正确的上下文中。
扩展公司的角色。角色是指由语音座席呈现的声音和特征。当用户切换到第二个语音座席时，开发人员可以在用户切换到第二个语音座席时维护第一个语音座席的角色，而不是在语音座席之间切换时切换角色。

　　与此同时，负责VoiceXML规范的万维网联盟一直在研究第三种选择。 W3C 语音交互社区小组希望一个语音应用程序将信息传递给第二个应用程序。他们正在研究的领域包括：

发现具有特定专业知识的虚拟助手，例如可以提供天气信息的虚拟助手；
语音识别器统计语言模型的标准格式；
参考常见概念的标准表示，例如时间；
对话界面的互操作性；和
对话管理或"工作流"语言的共同工作。

　　最终结果是开发语音行业标准的工作已经开始，这将使软件供应商、第三方系统集成商和咨询公司以及企业更容易将技术集成到他们的应用程序中。目前，这项工作正在自主进行。"从技术上讲，合并的潜力很大，"Dahl说。

　　但障碍依然存在，首先是标准的统一。"许可和知识产权（需要解决知识产权问题），"她补充道。

　　语音开发平台的基石不断成型。供应商正在扩展他们的解决方案。语音座席互操作性项目正在获得关注。预计这些可能性将在新的一年内竞争接受，并使供应商、企业和第三方更容易混合和匹配语音软件。

　　作者：Paul Korzeniowski

　　原文网址：https://www.speechtechmag.com/Articles/Editorial/Features/The-2022-State-of-Speech-Development-Platforms-151326.aspx

评论排行

推荐阅读

专题

大家都在看

CTI论坛会员企业