2021年语音技术产业状况——语音引擎的现状

老秦夜译

　　CTI论坛(ctiforum.com)（编译/老秦）:语音引擎在过去几年中经历的转变简直是惊人的，这在很大程度上归功于人工智能等重要领域的进步以及准确性、性能和规模的提高。

　　尽管全球新冠疫情给该行业带来了重大挑战，但创新和进步在2020年仍在继续。现在，语音引擎和驱动它们的技术似乎准备利用日益偏好和依赖语音而不断发展的商业和消费者环境。

　　ETS的语音和自然语言处理副研究员AbhinavMisra说，自从深度神经网络（deep neural networks，DNN）问世以来，语音识别引擎的性能有了显着提高，更多的组织和消费者从中受益。

　　“随着越来越多的人越来越多地使用语音助手，企业正在收集更多的数据，为这些人工智能算法提供素材，并进一步提高语音引擎的性能，”他说。

　　Appen人工智能专家高级主管Judith Bishop对此表示同意。

　　“自动语音识别引擎已经变得更加强大和通用。主要的引擎现在能够识别更广泛的不同年龄段的声音，包括儿童的声音，这与成人的声音有很大的不同，”她说。

　　Bishop补充说，COVID-19有助于推动最近的创新。“这场大流行把重点放在噪音环境下的语音识别上，过去一年，处理背景噪音的噪音抑制算法成为一个重要的焦点。结果，语音不再需要被如此大声和清晰地引导到近距离的设备上，并且语音现在可以被检测和理解，即使在某些情况下，说话人正在间接地对设备寻址，例如在准备饭的时候。这些进步进一步凸显了语音引擎如何更接近人类交流的自然条件。”

　　随着亚马逊（Amazon）、谷歌（Google）和IBM（IBM）等供应商现在从云上提供语音服务，语音引擎也从词汇有限的固定语法模型发展到更灵活、更开放的系统。

　　“如今的云语音服务比传统的固定语法模式更实惠。在联络中心环境中，高级语音识别的采用也在稳步增加；更多的客户可以使用自然语言与虚拟联络中心座席交谈，从而改善了体验，”最近被Five9收购的InferenceSolutions公司产品副总裁Santosh Kulkarni说。

　　Nuance Communications是这一领域的领导者之一，它可以证明进步的步伐是如何加快的，尤其是在医疗领域。

　　“深度学习技术迅速改变了计算机进行语音识别的方式。”Nuance的首席研究科学家FelixWeninger说：“它使我们能够为非常具有挑战性的应用构建语音识别器，例如转录医生和患者之间的对话。”

　　许多企业也在利用尖端的语音技术增强客户对话的能力。

　　“我们正在看到一种转变，即从脆弱的、基于命令的交互式语音应答系统，转向完全可以使用软件处理多步骤客户查询的自然交互式虚拟座席。”Gridspace首席执行官Evan Macmillan表示：“我们也看到了闭环语音系统，它可以从过去的对话中学习，让座席们更有帮助，更有效率。这些语音系统处理的实时语音音频量也在不断增加，这使人们意识到有可能出现更为复杂的语音接口和传输模式。”

　　年度回顾

　　2020年，一些关键的发展对语音引擎和相关技术产生了影响。

　　“在2020年，我们看到基于云的语音引擎解决方案越来越被接受。依赖于内部部署模型的组织被迫重新考虑其方法和投资，”VerintSystems负责语音和文本分析的副总裁DanielZiv说。“利用云中的语音分析可以让组织快速启动和运行，同时提供一个弹性和安全的使用模型，同时提供一个有吸引力的订阅财务模型。”

　　在过去的一年里，为了响应COVID-19和非接触式服务的需求，语音引擎也得到了加速采用。

　　“2020年带来了一个新的紧迫性，以提高语音辅助快速服务餐厅驾车通过效率，”Bishop说。

　　端到端语音识别引擎的出现，得益于谷歌、Facebook、微软和其他公司更积极的研究，也吸引了大量的注意力。

　　Misra指出：“使用单一的深层神经网络将音频信号直接转换成字母非常诱人，因为它消除了许多复杂性。”

　　到2020年，更多的企业利用会话人工智能，推出了智能虚拟座席（IVA）。

　　Kulkarni说：“如今，利用最新的无代码IVA开发平台，公司可以在几分钟内构建出与消费者智能扬声器相同的自然语言处理技术支持的IVA，并在几天或几周内将其部署到客户联络中心。”

　　在过去的12个月中，由于冠状病毒的影响，人工智能支持的语音助理和会话系统的革命呈指数级增长，品牌化的文本到语音变得更加流行。

　　Read Speaker的首席技术官Niclas Bergstrom说：“为了帮助自己从竞争中脱颖而出，各品牌也开始尝试不同的文语转换说话风格，包括用情感化的声音取代如今语音助理中常见的机器人声音。”

　　技术提供商改进了他们的软件开发工具包（SDKs）中代码集成的易用性。例如，Amazon在其AlexaSDK中引入了双语言模式和更多翻译模式。

　　人们对声音克隆的兴趣也在增加。Bergstrom解释说：“语音克隆允许开发人员提取目标语音的特定特征，例如音调，并将其应用于不同语音的波形。”

　　展望未来

　　对许多语音引擎专家来说，未来是光明的，尽管还有一些挑战需要克服。

　　“许多功能将被广泛应用，以帮助组织更好地支持'在家办公'模式，同时继续提供积极的客户体验。”Ziv预测：“这些功能包括利用语音分析见解优化自助服务渠道的有效性，以较低的成本提供卓越的服务。”

　　例如，分析可以帮助确定客户打电话的原因以及持续改进客户参与的方法。Elektrobit的高级专家VolkerSpringer预计，未来将有更好的对话背景跟踪。

　　“系统将更好地理解句子的语义，并更准确地将其与用户的环境相匹配，这将最大限度地减少听者的疲劳。系统将允许更复杂的句子和意图，”他说。

　　Macmillan坚持认为，未来一年，会话座席将协助、增强和自动化更多的语音交互。

　　他说：“对于一些大型医疗保健和金融服务公司，我们可以很容易地将由会话语音技术处理的语音查询比例从2%提升到50%。”

　　Deepgram联合创始人兼首席执行官Scott Stephenson预计，今年将有更多的资金用于为座席和客户提供语音体验。

　　Stephenson补充说：“与此同时，软件供应商将积极资助与语音相关的产品开发，以突破噪音，努力成为客户体验技术领域的下一个大玩家。”

　　Bergstrom认为，能够更好地衡量用户所说的内容和说话方式的Paralinguistic语音接口也将得到改进。

　　“这对于我们将在未来几年开始看到的另一项创新非常重要，这项创新将更加注重情感文本到语音的转换。”他说：“语音质量已经存在，但语音提供商需要优先考虑情感语音服务，这样才能提供更好的客户体验。”

　　作者：Erik J.Martin

　　原文网址：

　　https://www.speechtechmag.com/Articles/ReadArticle.aspx?ArticleID=145090

评论排行

推荐阅读

专题

大家都在看

CTI论坛会员企业