语音引擎的现状

老秦夜译

　　CTI论坛(ctiforum.com)（编译/老秦）:在2019年，语音引擎变得更加复杂，现在能够支持其他语言和方言，但也还有更多工作要做。这些解决方案，包括语音到文本，文本到语音，语音识别，语音命令和控制，语音搜索，转录，翻译以及相关活动的技术，现在在识别单词方面做得更好，但具有讽刺意味的是，这种能力并不是用户最终想要的。相反，他们需要可以像人一样对它们做出反应的系统。但是，对于供应商而言，实现该目标仍然遥遥无期。

　　年度回顾

　　在2019年添加的新语言和方言中，亚马逊的Alexa现在支持印地语语音交互。此外，该供应商还增强了系统以了解当地流行语言的变体，例如美国西班牙语和巴西葡萄牙语，从而使更多的消费者可以查看天气，控制智能家居设备以及使用亚马逊品牌的设备听音乐。Bose，LG电子和索尼等第三方访问Alexa语音服务应用程序编程接口（API）来开发Alexa Skills。

　　LumenVox还扩展了其系统的支持范围，以支持本地方言，例如美国，英国澳大利亚人，新西兰英语和北美西班牙语。

　　而且由于许多个人和家庭说多种语言，因此Amazon Web Services进一步引入了多语言模式，该模式允许Alexa在两种语言之间切换。该系统通过识别用户说出的语音并以相同的语言进行响应来自动进行调整。此功能分为三对可用：美国的英语和西班牙语，印度的印度英语和北印度语以及加拿大的英语和法语。

　　LumenVox客户服务副总裁Jeff Hopper表示，与此类似，LumenVox还添加了一个新的转录引擎，专门针对无音频格式。他解释说：“它可以实时工作，因此[交互式语音响应（IVR）]应用程序不仅可以接收结构化数据或自然语言输入，还可以处理原始文本。”

　　但是，对于整个语音行业来说，更有意义的是人工智能（AI）和深度神经网络正在开展的工作。人工智能工作已迅速进入主流语音技术，允许更多自然语言，对话交互，并且随着引擎处理越来越多的语音，机器学习使系统的准确性和性能得以提高。

　　今年，第四代深度神经网络（DNN）的出现也显示了语音引擎的进步。它们在输入和输出之间具有多层，因此可以使用线性或非线性关系得出结论。

　　Nuance Communications是该领域的领导者，该公司在7月推出了Nuance Lightning Engine，这是一种DNN，结合了语音生物识别技术和自然语言理解，可以跨语音渠道提供个性化，人性化的体验。

　　展望未来

　　尽管语音引擎已在许多方面得到了改进，但基础技术仍存在很多缺点。根据Booz，Allen＆Hamilton的前专业人士StephenArnold的说法，当今的系统在识别单个单词方面明显要好得多，但需要的是能够在上下文中理解单词的解决方案。

　　由于此限制，当将语音系统部署为企业和消费者使用时，它们有时无法正常运行。用户专注于最终结果，例如从语音搜索中获取结果，但是系统通常无法提供所需的理解水平。因此，根据普华永道最近的一项调查，有71％的美国人更愿意与人互动，而不是聊天机器人或其他自动化过程。

　　供应商正在完善他们的系统以弥合这一差距。Google开发了BERT（来自“变形金刚”的双向编码器表示），这是一种语音识别解决方案，旨在连接单词和更好地理解句子上下文。例如，如果某人正在寻找有关在另一个国家旅行的信息，则BERT会认识到“去(to)”一词比“来自(from)”更重要。

　　类似地，Translate Your World一直在构建语音解决方案，以识别对话中的语气，并且供应商发现，各个人的语气会因情况而异。“最终目标是指导AI翻译，以便它们在对话的背景下为与个人打交道提供正确的模式，”该公司总裁SueReager解释说。例如，“shingles”一词通常是指房屋屋顶上的物品，但在医疗保健领域，它代表病毒感染。

　　同样，交流因群体而异。“我们发现，消费者通常不会像企业高管那样讲的很清楚。”Reager补充说：“消费者的发音有时不清楚，他们通常不使用完整的句子。他们的思想缺乏组织，因此有时很难找到固定的模式。”

　　培训语音引擎以识别和适当地应对此类差异是她的公司以及其他多个行业细分领域将在2020年解决的问题。

　　谁来承担当前的语音挑战一直在变化。“试图翻译语音变得越来越困难，而且非常昂贵，”Arnold坚持认为。“在过去的日子里，麻省理工学院机器学习实验室的一些人能够建立一个商业系统。但是不做了。”

　　如今，语音引擎的研究需要大量资金，高技能的数据科学家和庞大的数据中心，而这些数据中心将拥有巨大的计算处理能力。因此，谷歌，亚马逊网络服务，微软和IBM等国内行业巨头正在承担许多工作。

　　在国际上，中国公司，例如百度，也在挑战这些问题。根据Arnold的说法，中国供应商之所以处于有利地位，是因为它们不受传统技术的束缚，可以采用新的方法来解决这些长期存在的问题。

　　供应商在扩展其产品功能方面也取得了进展，因此他们支持更多类型的语音，但是仍需要努力以帮助该技术将单个单词置于上下文中，以便系统可以适当地响应。随着市场的变化，开发负担急剧增加。展望未来，似乎只有财大气粗的行业巨头才能拥有推动语音解决方案前进所需的资源，从而变得更加人性化。

　　作者：Paul Korzeniowski

　　原文网址：https://www.speechtechmag.com/Articles/Editorial/Features/The-State-of-Speech-Engines-139107.aspx

评论排行

推荐阅读

专题

大家都在看

CTI论坛会员企业