2021年语音技术产业状况——语音开发平台的现状

老秦夜译

　　CTI论坛(ctiforum.com)（编译/老秦）:语音应用程序开发市场主要由消费产品驱动。最近，对于公司来说，构建自己的语音解决方案变得越来越容易，尽管这一领域并不像企业所希望的那样完全明确。

　　到目前为止，供应商主要专注于创建消费者语音应用程序。“Alexa拥有超过10万种技能，但其中很少有用于严肃业务用例的，”会话技术负责人、万维网联盟多模式交互工作组主席Deborah Dahl解释道。“很多技能都是学生项目和各种类型的实验。在构建工业级应用程序方面投入的精力还不够多。”

　　年度回顾

　　事实上，亚马逊、苹果和谷歌等顶级供应商通过创建消费者解决方案来打造自己的业务。2020年，一个企业平台出现了。通过Nuance Communications'Mix，公司现在可以构建自己的企业智能助理。

　　该解决方案包括许多组件，使组织能够创建通过应用程序编程接口（APIs）与企业软件集成的语音应用程序。通过Mix。nlu，一个自定义自然语言理解（NLU）系统，公司编写从Mix项目仪表板部署的语音模型。Mix的自动语音识别（ASR）功能由Krypton提供支持，Krypton是一个用于转录音频的实时语音到文本引擎。Krypton使用域语言模型和词集来定制特定环境的识别。

　　Dahl指出：“Nuance Mix与Alexa Skills Kit在功能上非常相似，它为希望构建语音应用程序的第三方提供了这些功能。”由于Nuance解决方案刚刚开始发布，它在可用技能的数量和丰富性方面远远落后于更大、更成熟的消费者平台。

　　大多数企业开发人员都使用过传统的文本应用程序，需要熟悉语音APIs中提供的功能。Nuance似乎意识到了这种需要。Dahl说：“Nuance创造了非常精良和有用的培训材料。一个视频引导新手完成开发过程，最佳实践和技巧提供了额外的指导。

　　供应商还继续调整他们的语音引擎。例如，今年10月，Artificial Solutions更新了Teneo语言，该语言以Teneo NLU本体和语义网络为特征，并将语言映射到声音。

　　Teneo现在也应用句法条件，比如理解一个词在句子中何时被用作名词或动词。附加的会话模块提供了预构建的解决方案，具有用于常见对话的后端集成，例如实时聊天切换或预订会议室。

　　即使在用户保持沉默的情况下，该产品仍能继续进行对话；保持与公司品牌价值相一致的个性；即使在用户偏离主题的情况下，该产品也能保持动力。

　　另一家开发平台提供商Voiceitt首先通过与具有非典型语音模式的人合作，建立了自己的语音识别算法和语音数据库。去年12月，供应商让残疾人可以使用Alexa。Voiceitt移动应用程序应用机器学习和语音识别技术，帮助因中风、退行性疾病或发育障碍导致的语音障碍患者进行交流。

　　此前，Inglis House是一个长期护理轮椅社区，它的试点取得了成功。两者开发了一个应用程序，帮助脑瘫患者使用自己的声音独立完成常见任务，比如控制电视频道或播放音乐。

　　不过，总的来说，语音解决方案在很大程度上是自主发展的，尽管企业希望将它们相互连接起来。

　　8月份，Genesys加强了Engage，它的云联络中心语音解决方案，因此它在多云部署中运行。

　　Engage的容器化体系结构支持私有、公共或混合云部署。该产品与领先的基础设施即服务提供商合作，如Amazon Web Services（AWS）、GoogleCloud和MicrosoftAzure。有了它，组织可以在不同的云之间移动他们的软件，或者使用多个提供者来满足不同的系统需求、地理需求或数据主权法规。

　　展望未来

　　到目前为止，语音开发平台主要是由大型成功技术公司推出的专有解决方案。有很多产品可用，但它们有不同的目标、设计基础和接口，而且很少在紧密结合的生态系统之外工作。

　　因此，企业无法轻松地将在其中一个平台上完成的工作应用到在另一个平台上运行的具有类似需求的应用程序。慢慢地，这个行业正以几种不同的方式转向标准的、开放的系统。

　　其中一个重点领域是开源解决方案。Rasa是一家通过风险投资筹集了4000万美元的初创公司，它开发了一个开源的语音开发平台。供应商提供程序员用来创建聊天机器人、语音应用程序和会话服务的基础设施和编程工具。

　　Rasa在其会话AI套件中提供三种产品。Rasa Open Source于2019年发布，创建了语音AI软件。RasaX是一个免费的工具集，帮助开发人员在Rasa开源平台上构建智能语音助手。RasaEnterprise提供企业级IVA开发平台。

　　Dahl认为，开源软件有优缺点。价格始终是部署的考虑因素，开源解决方案几乎总是免费提供的。此外，这些产品是柔韧的，人们可以用任何他们想要的方式使用它们。他们反应迅速。有了自己动手的工具包，企业可以立即更改软件，而不是等待供应商添加所需的功能。

　　但开源解决方案也有其局限性。核心升级通常需要一段时间，因为它们需要获得社区的同意，而社区对如何改进功能可能有很大不同的看法。通常，这些系统很复杂，企业缺乏部署和维护它们所需的专业知识。如果出现问题，用户通常无法拿起电话并获得技术支持。

　　另一个新兴趋势是推动行业标准的发展，这也使得组织构建和连接语音软件变得更加简单。开放语音网络（OVN）是由麻省理工学院（MIT）汽车识别实验室、凯捷咨询公司和英特尔公司在2016年夏天进行的研究开发出来的。”我们认识到语音用户界面有可能改变人类与计算机系统的交互方式，“开放语音网络的执行董事JonStine解释说。

　　OVN是Linux基金会的一个定向基金，去年春天推出。目前，大约有十几家企业和150多名设计师、开发人员和战略家正在研究创建通用语音软件体系结构的方法。它们有四个目标：安全；提供用户、生态系统和体系结构选择；具有包容性和可访问性；支持开放式软件和硬件，但仍能实现商业差异化。

　　该集团计划解决一个市场限制。”目前，企业没有办法注册他们的语音产品。“Stine指出：“没有用于语音的DNS[域名服务]。”

　　OVN已经开始研究如何建立一个数据库和流程，这样公司就可以注册，比如他们的名字。有了它，例如，消费者可以区分Delta Airlines和Delta Dental语音技能。

　　到目前为止，消费类应用已经推动了语音开发市场。新的以企业为中心的平台已经开始出现，向开源和基于标准的系统的转移有可能使公司在2021年更容易创建更多业务质量的语音应用程序。

　　作者：Paul Korzeniowski

　　原文网址：

　　https://www.speechtechmag.com/Articles/ReadArticle.aspx?ArticleID=145091

评论排行

推荐阅读

专题

大家都在看

CTI论坛会员企业