语音合成技术应用的兴起（和风险）

老秦夜译

　　CTI论坛(ctiforum.com) （编译/老秦）：文本转语音 (TTS) 是一个已有数十年历史的领域，但采用通常仅限于少数几个领域，因为合成语音让人感觉不自然和机器人化。但在过去的五年里，由于深度学习，合成声音（又名神经 TTS）可以变得更加自然和悦耳。音调、节奏、发音、口音、情感和说话风格可以根据需要进行调整。

　　Amazon、Google、IBM 和 Microsoft 等大型云供应商提供的 APIs允许开发人员轻松地将语音功能添加到各种应用程序中。除了大型供应商之外，许多创新的初创公司和专家正在想象合成语音的新可能性。

　　这些不同的用例分为两大类。

　　朗读用例

　　公司可以为这些用例使用库存语音或创建定制的合成语音（包括名人语音）。

　　·客户服务。自动语音应答是最古老的用例之一，但对话路径和响应必须仔细预先录制并完全编写脚本。开放式对话是有限的，因为不可能预先记录每一个潜在的反应。现在，通过在有限的训练数据语料库（即预先录制的音频）上使用人工智能，可以创建合成语音并将其用于开放式对话应用程序。

　　·新闻阅读。许多出版物（例如，华盛顿邮报、BBC、华尔街日报）都使用 TTS，因此读者可以收听文章。一些媒体网站提供"听故事"作为付费订阅者的高级功能。

　　·电子邮件。将向您读出电子邮件（例如，在 Microsoft Outlook 中）。例如，当您开车时，这可以实现免提体验。

　　·辅助技术。语音银行可以帮助患有运动神经元疾病的人生成自己的合成语音，可用于辅助语音设备。一些应用程序使有语言障碍的用户能够通过 TTS 接口设备说话。为了帮助有视力挑战的用户，有一些应用程序可以读出处方标签、产品标签，还有一些应用程序可以提供用户周围环境的提示和描述。

　　富媒体内容用例

　　这组用例通常涉及音频和视频内容。

　　·配音。视频配音和画外音并不新鲜，但 Netflix 等流媒体平台的兴起创造了全球观众和对将内容配音成多种语言的新需求。通过混合使用语音识别、机器翻译和合成声音，可以将音频配音为原始演员声音中的不同语言。唇形同步曾经是配音为不同语言的内容的问题，但现在人工智能有助于创建与口语相匹配的合成唇形动作。

　　·音频编辑。这是一个创新用例，有助于减少音频编辑的障碍。使用自动生成的脚本或文本，您可以通过修改相应的文本来删除填充词、添加新音频或删除片段。这有可能大大降低编辑成本和时间。

　　·在线和元宇宙安全。使用人工智能，声音可以被转换或改变，同时保留其情感和表现力。就像游戏玩家将视觉皮肤应用于他们的化身一样，可以应用语音皮肤来保护隐私并减少游戏环境或基于音频的社交媒体（例如 Twitter 空间或俱乐部会所）中的骚扰。

　　道德问题和风险

　　随着合法用例的增加，滥用和欺诈的可能性也在增加。

　　用户同意使用合成声音。在一部关于已故名厨 Anthony Bourdain的纪录片中，他的合成声音被用来让他"说出"几句他从未真正说过的台词。这样的例子提出了'同意'的问题，什么是允许的，什么是不允许的。

　　·深度伪造Deepfakes。不难想象，随着合成音频和视频功能变得更好，我们将如何充斥着复杂的公众人物（甚至是普通公民）的深度伪造。它可能是一个错误信息的雷区，会对公众信任和信息来源的可靠性产生影响。

　　·语音网络钓鱼和欺诈。《华尔街日报》报道说，一位 CEO 的声音被利用进行欺诈，以他的声音给他的同事打电话，指示资金转移，这是一种全新的网络犯罪类别，由合成声音和社会工程学结合而成。

　　公司需要善于负责任地使用合成语音用例来改善用户体验，提供更好的客户服务，并创造新的产品和服务。但他们还需要防范恶意行为者的对抗性攻击。对于语音应用来说，这是一个勇敢的新世界。

　　KashyapKompella是全球人工智能行业分析公司 rpa2ai Research 的首席执行官，也是《实用人工智能：企业手册》的合着者。

　　作者：KashyapKompella

　　原文网址：https://www.speechtechmag.com/Articles/Columns/Interact/The-Rise-(and-Risks)-of-Speech-Synthesis-Applications-154268.aspx

专题

评论排行

推荐阅读

专题

大家都在看

CTI论坛会员企业