语音技术离边缘越来越近

老秦夜译

　　CTI论坛(ctiforum.com)（编译/老秦）:语音识别是一项复杂的技术，需要强大的处理能力、高速连接和非常智能的软件。到目前为止，大部分繁重的工作都是在云端完成的。然而，新一代边缘设备正在出现，预计将推动大型数据中心的许多处理功能更接近用户。这一变化有可能缩短响应时间并降低成本，但配套基础设施尚不成熟，基本上未经测试。因此，企业应该开始涉足边缘技术，但要意识到，目前这是一项正在进行的工作。

　　这种紧迫性源于这样一个事实：数据量正以令人难以置信的速度增长。国际数据公司（IDC）的数据显示，全球数据总量预计将从2018年的33zettabyte字节（1zettabyte字节相当于1万亿千兆字节--trillion gigabytes）增长到2025年的175zettabyte字节，复合年增长率（CAGR）为61%。

　　自然，公司正在努力处理、存储和保护其不断扩大的信息池，而不断增长的数据量正在推动边缘计算业务案例。在较高的层次上，边缘计算是一种架构，它将位于数据中心（通常称为核心）的云服务与靠近最终用户的边缘计算设备相结合，这些设备可以自主地满足部分应用程序功能。最近两方面都发生了变化。

　　云计算为企业提供了一种比传统系统更简单的部署和管理计算机基础设施的方法，但这种差距一直在扩大。云将计算机处理集中在海量数据中心。据Gartner统计，2018年，90%的企业数据是在云端创建的，只有10%是在边缘中创建的。

　　然而，到2025年，边缘计算将占75%，云计算仅占25%。因此，一些云基础设施的缺陷正在显现。“专门的语音应用程序，比如互联汽车，需要将大量数据传送到云端，但网络可用性和质量并不总是有保证，”Conversational Technologies的负责人Deborah Dahl解释道。

　　隐私是另一个问题。“Dahl补充说：“人们越来越怀疑供应商的动机，不喜欢他们的个人信息进入云端，因为他们无法控制这些信息，也无法知道这些信息会发生什么。”这种不安在医疗保健和金融服务等垂直行业尤其普遍，但很少有行业能完全幸免。此外，消费者还担心黑客可能会利用语音系统进入自己家中。家长们尤其担心从孩子身上收集到什么信息以及如何使用这些信息。

　　“因此，语音行业一直在寻求将计算能力和存储能力推向网络边缘。语音平台，如Amazon Alexa、Google Assistant、Microsoft Cortana和Nuance Communications的Dragon，从提供解决方案的一开始就基本上部署了边缘技术。”Opus Research的创始人兼首席分析师Dan Miller解释说：“有很多智能终端，比如扬声器、自动信息娱乐系统、信息亭和智能手机，都有语音用户界面。”

　　然而，本地发生的计算和分析量很小，主要由唤醒系统的命令组成。一个原因是他们的设计是几年前开发的，当时边缘设备缺乏本地处理能力和电池电源。

　　随着行业的发展，这些障碍已经被清除，云计算的局限性已经明确化。将大部分会话发送到云端进行解码、解释和响应，会降低响应时间，增加网络基础设施需求（及其成本），并引发安全问题。

　　边缘计算对语音技术的许多好处

　　边缘计算正在发展成为一种更具吸引力的选择，因为它分析数据时更接近数据的创建位置，并将信息从终端设备到语音识别系统的移动最小化。更智能的边缘系统可以支持音频捕获等功能；压缩；传输；语言处理；还有语音追踪。此外，将更大的单词子集和自然语言处理功能放在更接近用户的位置会带来许多好处，包括：

它增强了应用程序的响应能力，因为系统不会受到网络或云数据中心速度减慢的阻碍。
它减少了互联网带宽的使用，向云发送简单的文本消息，而不是复杂的语音记录。
它降低了成本，使公司能够削减网络成本，因为它们传输的信息较少。
减少延迟。延迟是有问题的，数据从设备传输到执行分析并返回结果所需的时间。将数据移近终点会缩短响应时间，并允许在后台处理选定的任务，如将项目添加到购物列表或创建提醒。
它更好地支持任务关键型应用程序。处理速度如此之快，以至于公司可以部署需要即时数据处理的实时应用程序。
提供离线可用性。有了云，就不能保证网络始终可用或可靠。通过边缘计算，语音助手处理某些命令并执行选择功能，例如自动发出警报和发送提醒，即使设备处于飞行模式或超出覆盖范围。
它保持数据的私有性，因为供应商可以进行检查，这样用户数据就保持在本地，而不会发送到云。
它符合隐私要求，如欧盟的一般数据保护条例（GDPR），该条例限制了信息的存储位置；更少的移动意味着更少的潜在问题。
它提高了安全性，因为边缘系统越来越善于区分和识别用户声音。本地处理可以通过重置系统配置文件快速阻止试图闯入的人。

　　但要使边缘计算全面运行，还需要进行一些基础设施升级。一个好的起点是硬件。“围绕本地自然语言处理这类事情的最大挑战是将应用程序和数据模型限制在便携式设备上的小脚印上，”Miller解释说。

　　供应商必须升级他们的边缘硬件，使其更强大。例如，亚马逊的Echo设备使用该公司的AZ1神经边缘处理器，它需要的功耗减少20倍，内存使用率降低85%，但语音处理能力却翻了一番。此外，CEVA、Fluent。ai、NVIDIA、Intel和Syntiant等半导体供应商正在开发专用中央处理单元、图形处理单元、数字信号处理器和系统芯片语音处理解决方案，旨在以小型、节能的形式提供所需的处理能力。

　　传统的无线广域网（WAN）技术不适合边缘计算。认识到这些局限性，国际电信联盟（International Telecommunications Union）、3GPP和互联网工程任务组（Internet Engineering Task Force(IETF)）开发了IMT-2020，即5G。它提供了许多增强功能，包括：

　　支持更多设备：新标准是为边缘设计的。4G网络支持每平方公里最多约4000台设备；5G与100万人合作。

　　减少延迟:4G延迟通常在20毫秒到30毫秒之间；5G是1毫秒到10毫秒。

　　更快的速度:4G以每秒1G的速度运行；5G的最高速度高达每秒20G。

　　人工智能和机器学习的进步使得语音系统变得更加复杂。检测到关键字后，设备开始主动侦听。更多的智能可以放在本地，因此边缘系统可以在嘈杂的环境中更好地处理信息，例如繁忙的办公室。新兴的技术将用户的声音与周围的声音分开。

　　例如，波束形成处理来自多个麦克风的音频，以便将注意力集中在用户所在的方向。如果员工从一个地方移动到另一个地方，语音跟踪算法会调整麦克风信号之间的平衡，这样系统就能知道说话者在哪里，并能听到他们在说什么。

　　软件还可以抑制会话干扰。与消除噪音耳机的工作方式类似，该设备负责抑制干扰和音乐，即使在大声播放时也是如此。

　　先进的边缘计算能力支持语音生物识别，防止未经授权的用户输入信息，进行购买，或更改关键系统设置。在处理敏感客户或员工信息（如人力资源数据或帐单）的部门中，这些功能非常重要。

　　设备上的人工智能语音识别可以执行高级安全功能。一种装置探测到玻璃破碎的声音并触发警报。当连接到摄像头时，声音会触发对视频的特写录制事件。

　　边缘计算功能正在被添加到智能设备、计算机、打印机、家用电器、灯具、办公设备和玩具中。用户可以输入命令来执行任务，比如打印文档，或者帮助员工阅读重要文档。

　　边缘计算提供了潜在的成本节约。供应商语音识别的应用程序编程接口（API）调用通常每1000个APIs调用花费4美元。将智能放在离设备更近的地方可以消除它们并降低系统开销。

　　边缘计算是一项正在进行的工作

　　然而，边缘应用程序开发工作非常复杂，处于开发的初级阶段，需要一个更加健壮的生态系统。随着数据从云端移动到边缘，软件复杂性增加。

　　IDC边缘策略研究总监Dave McCarthy表示，硬件平台及其支持的通信协议日益多样化也带来了挑战。将这些信息保存在一个地方，云计算比在多个地方协调信息要简单得多。

　　规模也是一个问题。“边缘适用于只有少量设备的应用程序，但随着供应商规模扩大到数百或数千台，这种模式往往会崩溃，”Mc Carthy说。

　　缺乏标准使这一挑战雪上加霜。目前，供应商正在以自己的方式解决这些问题，因此软件的可移植性和开发的一致性受到限制。

　　软件更新和维护变得更加复杂，因为数据必须在多个位置同步。“如果有一小部分可能的功能，比如说对于一个玩具，更新应该是简单的；如果一个应用程序很复杂，比如说库存，那么工作就会变得更麻烦。”

　　随着数据从数据中心转移到边缘，公司也需要新的管理工具。如果没有它们，他们可能无法监视事务中每个步骤发生的情况，识别潜在的瓶颈，并在问题对性能产生负面影响之前理想地解决问题。

　　最后，请注意，这一领域是新的，因此基本上缺少所需的支持基础设施和技能。很少有开发人员了解新的体系结构，而最佳实践的开发才刚刚起步。总之，生态系统需要做很多工作。

　　边缘计算找到了一个利基市场

　　由于边缘语音系统的雏形，它们是例外而不是规则。它们存在于选择性用例中，包括需要以下条件的用例：

　　速度，当系统需要以难以置信的速度处理数据时，比如实时解决方案；

　　缺乏可用带宽，当机器生成大量数据时，将无法有效地发送到远程数据中心；

　　自治，解决方案需要能够在没有网络连接的情况下运行；和遵守，当信息必须保持在特定区域内以遵守法规时。

　　因此，专注于这一领域的供应商数量很小。2019年11月，Nuance Communications剥离了Cerence，该公司成为一家独立的汽车软件公司。Cerence Drive语音识别系统用于3.5亿辆汽车，其虚拟助手功能可执行诸如打开空调和找到最近的Wi-Fi咖啡馆等任务。

　　Sensor的边缘解决方案嵌入了来自ATT、Hasbro、华为、谷歌、亚马逊、三星、LG、摩托罗拉、GoPro、索尼、腾讯、Garmin、LG、Microsoft和联想等数百家消费电子厂商的30多亿个产品中。

　　那么未来会怎样呢？“我没有看到大多数语音应用程序使用边缘技术，但是那些需要低延迟、隐私和安全性的应用程序会发现它很有吸引力，”Dahl总结道。

　　作者：Paul Korzeniowski

　　原文网址：

　　https://www.speechtechmag.com/Articles/Editorial/Features/Speech-Technology-Inches-Closer-to-the-Edge--146809.aspx

评论排行

推荐阅读

专题

大家都在看

CTI论坛会员企业