构建引人注目的语音体验时要避免四个陷阱

老秦夜译

　　CTI论坛(ctiforum.com)（编译/老秦）:语音体验无处不在，从家中的智能技术到汽车中的命令。语音是一种新兴的、更人性化的与周围环境互动的方式，正在推动下一波消费者和员工体验。事实上，Opus的研究发现，80%的受访者认为流感大流行加速了自动语音识别的采用。

　　由于开发人员利用了这种新的通信模式，因此在创建健壮的用户体验时，浏览所有不同的组件可能会很棘手。作为一名专注于人工智能通信领域的首席技术官，我与许多客户交谈，了解他们需要什么才能使他们的语音体验获得成功。以下是创建强健的语音体验时要避免的四个关键事项：

　　忽略音频源的质量。基于语音的体验在很大程度上取决于音频输入的质量和融入体验的转录能力。作为一名开发人员，提倡高质量的语音数据非常重要，因为低质量的语音音频不仅很难听到，而且会使开发您的语音体验变得更加困难。确保您使用的是良好的语音格式，并采用FLAC和Opus等标准，这些标准提供了良好的压缩和优化。好的ASR提供商将能够处理您拥有的任何数据，但如果您避免使用低采样率（如8kHz），而使用更高质量的采样率（如16kHz），您的数据将更干净。在一天结束时，与您的团队合作以确保您的录音要求被听到是很重要的。

　　依靠具有刚性架构的ASR。我经常看到开发人员被锁定在提供最小灵活性的现成解决方案中。寻找一家提供低成本解决方案和易于导航的实时功能的提供商是现实的目标，但没有一种适合所有人的解决方案。开发者需要确切地知道他们希望从音频数据中得到什么，这样他们就可以选择一种技术来分析最相关的见解。寻找能够提供部署灵活性和速度、高精度、实时能力、可扩展性和定制培训的提供商非常重要。这些功能的重要性排名将根据您的使用情况而有所不同，但选择一种对每种功能都很好的ASR技术将使您的语音体验更好，因为它们会随着最终用户的需求而变化和增长。

　　忽略应用程序将在其中使用的上下文。如果你想让你的语音体验在电脑上运行，你就不需要担心连接和带宽。另一方面，如果您的团队成员主要使用可能出现连接问题的移动设备，那么您应该选择针对低带宽进行优化的最适合的音频编解码器，这样您就不会占用用户的网络连接。对封闭源代码音频编解码器保持警惕也很好，因为它不需要标准化。只要有可能，就尝试使用开源音频编解码器。

　　没有留下试验和失败的空间。所有的公司对语音体验都会有不同的需求，有时他们并不清楚语音体验在实时和现实生活中是如何工作的。在构建应用程序或API的过程中，可能会出现很多问题，因此，当您越来越接近找到满足企业需求的产品时，在构建系统时考虑到健壮性和灵活性是至关重要的。

　　作为一名开发人员，您希望为您服务的任何受众创造最佳的语音体验。比以往任何时候都更重要的是，确保您的语音数据是高质量的，您了解您的基础ASR技术可以做什么，并创建一个能够准确处理您需要的敏捷后端体验。语音体验的时机就在现在，通过尽早加入适当的API，您的语音体验将蓬勃发展并适应客户的需求。

　　作者：Deepgram首席技术官Adam Sypniewski

　　原文网址：

　　https://www.speechtechmag.com/Articles/Editorial/Industry-Voices/Four-Pitfalls-to-Avoid-When-Building-Compelling-Voice-Experiences-148050.aspx

专题