标贝科技：“声音复刻”的黑科技，有它逃不开的灵魂拷问

标贝科技联合创始人兼CTO

　　语音交互以假乱真，已是显性诉求

　　疫情期间，整个智能语音行业的表现算是比较好的，语音解决了很多非接触（手动）人机交互的应用场景。比如声控电梯、心理诊断问答资讯、疫情防护宣传制作、商业街区写字楼语音动态播报等。

　　像新出现的场景“非接触的语音控制电梯”，和我们之前一直在使用的智能家居里的芯片组或者算法基本一致，将它们和电梯的控制按钮集成后就能应用，难度不大。所以在疫情的催化下，只是需求量变多了，原来不用这些产品或者技术的公司开始考虑用到这些技术，以及增加了少量新的场景，但在应用难度上并没有太大的挑战。

　　但此次疫情让人们看到了智能语音的市场空间、应用场景和巨大的市场价值，推进了语音技术与应用场景结合：

　　1、市场教育：以前习惯用手动操作，基于疫情期间，自身防护健康等角度出发，发现语音也是一个很简单的交互体验。

　　2、广泛应用：疫情期间创造了很多强语音技术结合的场景。例如每天有大量疫情动态及防控等信息的通讯需求，通过语音合成技术，可以快速、规模化的将文本转为语音收取资讯，这部分的用户数据增长能达到10倍、甚至几十倍，我们也看到声控电梯、外部监测体感语音报警场景大量出现。

　　3、技术发展呈现多样融合的趋势。智能语音解决“听、说、懂”的问题，但应对疫情防护，不可能是单纯的语音层面产品形态，而是配合图像视觉、人脸识别、红外体感等技术，来打造针对疫情一线的综合防护与检测产品。比如大屏体温检测、医疗机器人送药问诊查询等应用。

　　这次疫情，对于很多公司来说也是一次考验。有成熟的技术和解决方案的公司，就能够快速落地，取得一些优势。

　　以语音交互领域为例，目前语音合成技术和语音识别技术，相对来说具有较高的成熟度，而语义理解相对来说还比较薄弱。我认为，接下来行业对语音的探索不单会停留在“可用”上，还会考虑给用户带来更好的体验。声音在交互的时候，如何能给人带来更自然、贴心、温度，并达到以假乱真的体验，这已经从一个潜在的诉求变成一个显性的诉求。

　　“声音复刻”是痛点还是痒点？

　　在疫情期间，我们看到出现了几种情况:1、很多家长和孩子，因为疫情无法上班、上学，也无法外出，居家的时间大幅增长，陪伴辅导孩子的任务骤增；2、有些家长由于支持抗疫或者受疫情影响无法返家，造成春节假期也无法团聚，相互思念；3、有些疫情严重地区，出现感染新冠肺炎的患者死亡的现象，为自己或者自己的亲人留下更多的记忆，也变成了一种生死离别下的重要诉求。

　　我们观察到上述的情况后升级了我们之前的产品“标贝留声机”，它能够复刻父母声音，给孩子讲故事，这在家长圈里引起了广泛注意，声音复刻的数量增长了500%以上，1-4月份留声机的用户使用数据增长了200%。我们之前就有“声音银行”的概念，用户可以把声音存储在我们的云端系统上，就像在银行存钱一样。需要的时候，就可以应用这个声音，生成自己想要的内容。

贝克录音棚

　　在智能语音领域，留声机产品是一个新的技术应用，核心技术是如何利用少量的数据，实现一个高相似度的声音模型。大家可能之前看到过科学家霍金，在失去说话能力之后，可以依靠语音合成技术说话，觉得不可思议。随着技术的进步，这一技术的应用成本在大幅下降，每个人都可以拥有自己的声音。用户只需要录制5分钟语音内容，等待2小时左右即可获得用自己的声音想说就说的功能，这在之前其实是很难想象的。我们也在不断对技术进行升级，充分利用基于Attention的机制，以及迁移学习技术，去提升了声音复刻的效果，改善用户体验，让声音的还原度更高，听起来更像。但因为数据量比较小，如何保证稳定输出是训练这种模型时要面对的挑战。

　　我认为，声音复刻的需求是存在的，但可能只有很少的人知道现在已经有这样的技术能够满足此类需求，目前技术的宣传还远远不够。当然，也因为这个技术出现的时间比较短，语音不仅仅是信息载体，还承载了一个人的很多个人特点，包括音色、语气、语调、风格等，在技术上仍需要持续探索。对一个新的使用场景，也还需要全行业一起努力去推动它的落地，打造出有一个标杆性的产品，为用户所认识和接受，这还需要一定时间，这是一个以点带面的过程。只有技术服务提供的时间周期比较长，才能展现出它的实际价值，现在这个使用场景还处在一个打磨的阶段。

　　仅仅有声音还不够，声音结合图像，会有更为广阔的空间。近几年，短视频的蓬勃发展，也说明了声音+图像的巨大市场。因此，“虚拟人”这样的产品应运而生，它可以覆盖虚拟主播、虚拟员工、虚拟偶像等各类不同的场景，应用于新闻媒体、智能客服、智能银行、智能城市、泛娱乐应用等系统当中。

　　判断“留声机”、“虚拟人”这样的使用场景是否是刚需，可以从价值创造、及时性、便利性等不同的方面来分析。

　　比如，虚拟人如果可以代替部分人工，那会为公司节约人力成本，创造价值。只要是投入成本低于所节约的成本，企业就会乐于投入。比如智能客服为什么能快速发展，实际上是这些领域的客户尝到了甜头，在使用此类技术后，企业可以降低30%或50%的客服人力成本，大大提升整个财务状况，那么他就会继续扩大在这方面的投入。

　　又比如，传统的新闻播报有时效性，而录音难以实时满足，而且成本较高，采用留声机或者虚拟人技术，就可以随时低成本地生产内容，既满足了实时性的要求，又降低了成本。

　　再比如，短视频的编辑，变得越来越简单，但给视频配上匹配的声音，往往需要找配音演员，而且对声音的控制，也涉及到很多专业的知识。不过我们的技术现在还很难做到给影视作品配音，等到合成效果达到这个水平，我觉得会有彻底的变化。

虚拟数字人

　　逃不开的灵魂拷问

　　目前来看，“留声机”、“虚拟数字人”市场认知度、成熟度在不断提升，有些音频内容或者视频内容，已经融入了这些新技术产生的音频或者视频。但我觉得目前存在以下几点挑战，或者说思考的空间，值得全行业一起去寻找答案：

　　1、语音合成是科学与艺术的结合，比如声音复刻，一方面需要技术创新应用，怎么让声音效果更逼近人声效果，合成速度快、效果好的问题。另一方面，需要做创新性玩法，打磨出更稳定、更个性、更差异化的语音应用体验。后续需要考虑如何提高情感表达方面的技术，这绕不开“语义理解”这个环节的提升。

　　2、技术提供商提供的是核心的技术，每个具体应用的领域，都有其特殊性，需要深入了解行业，了解用户，这需要结合产品形态去做各个行业的探索，针对不同产品提供更好的解决方案，这不是一个复制粘贴的过程，比如在儿童教育场景，如何利用语音技术，针对不同年龄段开发功能，如何做到“千人千面，如何能够持续良性发展，如何反哺技术研发，都需要深入考虑。

　　3、商业化问题需要持续关注。如果产品直接ToC，那就要去验证用户愿不愿意付费的问题。我觉得实际上对留声机来说，它最终会是一个ToC的产品。产品涉及到训练模型，提供线上服务，如果用户没有付费意愿，那商业化的问题就比较棘手。如果产品ToB，比如我们会和玩具厂商、家居、汽车等有一些合作，如果此类合作伙伴不能有很好的商业模式，那么他们购买我们技术服务的动力也会很弱。那么对技术提供商来说，接下来一方面要考虑降低技术成本，让它更容易用很小的成本去尝试去推广，去验证它的商业模式；另一方面，也要帮助合作伙伴收集用户数据去做测试，不断迭代技术和产品，让它在市场端有更好的需求。

　　4、技术的应用，有时会面临技术有罪与无罪的争论。我相信大家都很关心安全风险以及监管的问题，这是一个风险点，但是它可能不会阻碍整个技术的发展。只是我们在应用技术的时候要权衡，是否需要让声音保留一些技术的特征。另外，也需要尽可能提高数据的安全性，比如我们开发了一套完善的账户管理体系，将复刻的声音或者定制的虚拟人进行授权，使之保留在一个特定的范围之内，以尽力保持这个技术的合法利用。随着这类场景不断普及，我认为也会陆续有相关的指导政策出台，以最大化降低相关问题出现的风险。如果要诈骗，其实一个真人去打电话，和让一个虚拟数字人去打电话，我觉得本质上没有区别，就像菜刀有人拿去切菜有人拿去砍人。所以如果做了该做的防范，遵守了相关的法律法规，在这个基础上保持一个相对开放的心态，可能会利大于弊。我们希望这个技术能够达到真人的效果，但当它快达到100%的时候又会有恐慌，这个问题非常复杂，其实很难有完全正确的答案。

　　5、理论上，低端、重复性的工作都可以用机器来代替，但是我们发现日常生活中还是有很多此类岗位存在。技术完全替代人，基本上可以认为是不可能的。但技术的发展在不断改变技术替代人的比例，随着人口老龄化，我们的劳动力越来越少，那么在各个行业它替代人的占比都会提升，这最终可能会变成一个社会问题。

　　目前来看，行业竞争关键也是考验语音技术与配套场景产品结合，未来一定会有大批玩家进入，不乏BAT这样的玩家。可以肯定的是，随着大批玩家的涌入，这个市场会愈发成熟，用户对新技术的接受程度会大大提升。当一个虚拟人或者智能体说话时能达到和真人一样的效果，我相信整个行业会迎来一个爆发。

评论排行

推荐阅读

专题

大家都在看

CTI论坛会员企业