语音识别的前世今生，那些你不知道的事

　　从台式机到移动设备再到更多应用，语音识别已经不再是满足小众需求的新鲜事物——而且还衍生出了一类新型的小工具。

　　过去三十年里，语音识别是这样的：您能够和自己的计算机交谈，通常使用头戴式麦克风，使用微软Windows中未公开的语音识别应用软件，或者Nuance通信公司“龙自然语言”版的应用软件。如果您发音很清晰，那么屏幕上就会显示出单词，然后执行命令。

　　今天，改进很大的语音识别技术得到了广泛应用，在过去两年中，它催生了一类新的消费系列产品：语音控制的个人助理。VoiceLabs公司为语音应用软件开发人员提供分析技术，该公司创始人之一AdamMarchick表示：“这是经过了30年的沉淀而一夜成名。它终于变得足够精确，足以能进行对话了。”

　　和大多数技术一样，语音识别的发展也是逐步的。2017年8月，微软宣布，根据行业标准测试，其会话语音识别系统的单词识别准确度已经超过了专业人类转录员的识别准确度。在此类测试中，专业人员的平均错误率为5.9%，而微软系统达到了5.1%。

　　微软技术研究员，也是该公司语音和语言部负责人黄学东说：“这就像梦想成真。1993年我们在微软开始语音识别时，错误率大约是80%。1982年，我在读研究生的时候开始研究语音识别技术，那时，我们面对的是孤立的单词，根本不敢想象软件能够像人那样识别出对话。”

　　Nuance首席技术官Vlad Sejnoha说：“今天，如果您在一间安静的办公室里，清晰的用普通口音说话，那么语音识别准确率能接近100%。”

　　这样的准确度意味着人们能更好的与自己的电话进行交谈，更轻松高效的与客户服务呼叫中心的机器人聊天，在家里和办公室里使用语音命令。

　　逐渐累积的进步

　　Sejnoha说，该技术能够达到目前的水平，也是一步步走过来的。Sejnoha说：“15到20年来，我们使用的主要技术是基于统计学的，特别是隐藏Markov模型。我们有各种各样的模型来预测这个片段是某个特定音素产生的可能性，或者某个单词应该合理的出现在某种上下文环境中。我们开发了各种变体，并且能够稳步进展。

　　他补充说：“近年来，传统的统计方法已经被深度学习（神经网络）模型所取代，这些模型非常灵活，而且比以前更能推动系统的发展。结果在过去10年中，错误率平均每年下降20%。”他说，语音识别现在能够为更多的人提供服务，用在各种各样的环境中。Sejnoha举了一个语音识别仍然不能很好工作的例子，他说：“在鸡尾酒会上还是要喊。”

　　Sejnoha预计每年20%的改善率仍然会继续下去，不仅越来越适应嘈杂的环境，而且还能适应很多特殊的情况。他指出：“理解多种语言越来越重要，在欧洲借助GPS地图，还必须做一些工作，比如理解德国司机所说的法语地名。普通话有很多外来词，其发音因人而异。”

　　关键点

　　随着每年20%改善率的累积，大厂商开始使用深度学习来制作自己的语音识别引擎。后来，他们越来越信任该技术，认为它足以支持新一类消费产品——个人助理，先是作为应用软件（例如，苹果的Siri和微软的Cortana），后来作为独立的设备（例如，基于Alexa服务的亚马逊的Echo，基于谷歌助理服务的谷歌Home，等）。

　　这类系统的语音识别是在云中进行的。这些设备在收到“OK Google”类似的命令提醒后，开始收听，传送出语音数据。

　　Marchick解释说:“设备非常薄，就像Unix终端一样。计算机在云中，它们会待命，听它们的名字，就是这样。”

　　语音和视觉技术公司Sensory首席执行官ToddMozer补充说：“长期以来，语音识别的重点一直放在计算机上，但在过去的5到10年间，重点转向了消费类技术。第一个关键事件是SteveJobs发布了Siri，表明了对语音识别的支持。苹果无论做什么都会是消费类电子产品的典范。第二个关键事件是亚马逊发布基于Alexa的产品，例如Echo。”

　　Marchick说：“当我们在一年前开始这项业务时，市场上只有亚马逊的Echo，以及几万台设备。很快Echo将面对7个竞争对手，预计今年年底会有三千三百万台设备投入使用。语音交互会大幅度攀升。此前，有三百人为这些设备制作语音应用程序。而一年后的现在，有一万六千人。”

　　Marchick说，Echo的竞争对手包括谷歌Home，再加上未发布的苹果HomePod；运行微软Cortana的未发布的Harman/KardonInvoke；还有三星Galaxy智能手机的三星Bixby；其中至少有两个是中文系统。

　　扩展应用

　　但事实证明，这些供应商通常会提供软件开发工具包，使其语音识别引擎能够被用来开发使用自然语言作为接口的应用程序。对话技术公司顾问Deborah Dahl说：“自然语言和语音识别令人兴奋之处在于这些工具包的开发。他们对其进行设置，以便普通开发人员都能够使用在线工具创建口语系统。这真的降低了难度，所以不需要成为自然语言专家便能够开发客户服务应用程序。”

　　SherifMityas是达拉斯TGI星期五连锁餐厅的首席信息官，说他的公司能够在5个月内启动一个基于语音的接口应用程序，该应用程序是采用亚马逊Alexa工具包Lex开发的。他补充道，对于手机用户和亚马逊Echo用户，它用起来也是一样的，唯一的区别是手机用户通常四处走动，需要确定方向。

　　Marchick说：“应用程序开发过程就像创建一个网页。您有很多服务可以使用，您编写代码，然后发布代码，最后进行测试。”

　　Dahl指出，“如果您花几天的时间去适应GUI，那么这个过程会非常简单。最难的是，它们不会帮助您设计应用程序——如果您对结果没有一个清晰的概念，那么当您看到没有覆盖所有应该覆盖的用例时，您不得不回头去做大量的返工工作。”以一个比萨订购应用程序为例，“您必须想清楚所有需要由用户提供的东西：浇料、厚度、尺寸和酱汁，等等。您可以在几星期内自己完成，但是必须和订购系统的后端保持一致。”

　　Mityas说，TGI星期五餐厅应用软件的主要难点是怎样简化菜单选项。他说，菜单上有15个配菜，如果让Alexa去列出这些菜会很麻烦，但开发人员发现他们可以列出最受欢迎的三个配菜，然后让用户去选择更多的配菜。

　　Dahl说：“在现实生活中，您不会去预测用户会说什么。用户总是出人意料，所以会有一段时间的调整。”比萨订购应用软件的用户“会问起面包棒。他们会要求您不要像上次那样没做熟。系统必须采集到这些，否则就会彻底失败。”

　　为预测用户会说些什么，对话人工智能系统（例如，企业虚拟客服）提供商NextIT最先研究了企业与公众互动最有可能使用的词汇。

　　NextIT总裁Tracy Malingo表示：“作为经验，当我们为了新客户而接触一个新商业领域时，我们希望有1万到2万次经过策划的对话，我们可以从中获取数据。这些可以是电话、聊天记录、推特馈送——我们将处理任何涉及企业和消费者之间来回交互的文本对话。”

　　Mityas指出，使用语音交互比基于文本的交互效果更好，因为用户可以畅所欲言，建立起人工智能可以使用的情景。他补充说，文本交互往往只是孤立的问题。

　　最后，Malingo说，训练虚拟客服的时间和培训人类客服的时间大致相同。她指出：“而虚拟客服一旦完成训练，它就永远不会休息，每天工作24小时，回答成千上万的问题。”

　　Malingo解释说，虚拟客服的成本取决于应用程序和行业的复杂性。但是其成本比率通常是固定的，她说：“如果一个现场电话的成本是一美元，那么与现场客服进行网络文本聊天的成本是50美分，因为客服每次可以同时进行多个聊天。而虚拟客服的成本将是5美分。”

　　Mityas可以为私有企业TGI星期五餐厅提供免费的数据，但他说，使用语音识别技术已经使在线用户的参与度提高了两倍，在不到一年的时间里，外卖的销量也翻了一倍。

　　升级点

　　Malingo说，虚拟客服的使用并不意味着所有的人类客服都会被取代。实际情况是，“升级点”（在这一点，致电者必须被转给现场客服）被抬高了。

　　员工福利管理公司Alight解决方案公司技术总监Ibrahim Khoury对此表示同意，升级点是关键。Khoury说，通过引入自然语言客服来处理每年的招聘活动，公司能够把转给人类客服的对话减少94%。

　　采用了虚拟客服后，Khoury补充说：“我们正在努力解决大批量的低价值问题，让客户快速提问，快速得到答案。Khoury说：”这为人类客服处理少量的高价值问题打开了大门，比如‘我失去了我的配偶’该怎么办？“

　　但调整不会结束。如果系统能回答85%到90%的问题，您会很高兴。它在开始时可能会停留在60%左右。但总有10%的问题系统永远无法理解。

　　Malingo指出，与机器人交互的时间通常要少一些，因为闲聊少了。她补充说：“然而，这是令人愉快的，人们几乎每次都要感谢机器人。”

　　至于实际的可靠性，Marchick说：“当您可以限制应用程序时，例如，只谈论披萨，那么语音识别的质量是惊人的。但是当您进行一般的对话时，您还没有把该技术完全理想化，因此，即使出现怪异的对话，您也不会误解它。如果您想在开会和记笔记的时候打开它，那真的很难，因为会议可能是关于任何主题的，而要想总结对话也真的很难。如果您在酒店房间里使用它来处理您想要的有限的操作——音乐、客房服务，或者电影，环境受到一定限制，它会工作得很好。”Dahl指出，识别引擎通常会为每个单词返回一个介于0和1之间的置信度值，程序员可以决定什么时候要求用户要求重说一遍。然而，怎样确定好的置信度是一种艺术，如果置信度模糊不清，会导致用户被接二连三的要求重说一遍，引起用户的反感。

　　她说：“如果问用户，您说的是‘美国’还是‘USA’，这就会让用户反感。”并且，Dahl警告说，“如果设计考虑的太多，那就会没完没了，这包括：地区口音、儿童、恶意用户、隐私等等考虑因素。”

　　然而，识别引擎的选择并不是重要的考虑因素。当被问及哪家供应商的产品更适合哪项工作时，Malingo说，“我们看不出他们之间的差异。”

　　另一个关键点

　　当普遍认为语音识别已经足够好的时候，2017年4月12日发生的一件事改变了人们的看法，当时，汉堡王（BurgerKing）播放了一则电视广告，想要欺骗任何正在收听广告的谷歌Home设备。

　　在广告中，主持人说，“您正在收看的是一个15秒钟的汉堡王广告，遗憾的是我们没有足够的时间来解释Whopper三明治有什么样的新鲜食材。但我有个主意。那么，谷歌，Whopper汉堡是什么？“

　　所有听到这个问题的谷歌Home设备，其回答都是背诵维基百科上Whopper汉堡页面的内容。一位不愿透露姓名的谷歌女发言人说，谷歌在当天阻止了这种回答。她说：“我们的主要目标是，谷歌Home在您需要的时候提供帮助，而不是在您不想要的时候帮助您。”

　　同时，语音识别顾问BillMeisel指出，如果您想要使用语音识别工具在计算机上撰写文本，那么，Windows语音识别和Dragon Naturally Speaking仍然是不错的选择。他补充说：“这是律师和医生的专业领域——但如果您想在手机上口述笔记，Cortana会让您得偿所愿。”

　　至于最终会怎样，黄指出，“PC让计算普及开来，而移动计算让PC普及开来。下一转变将是环境计算，那时，您不会被束缚在设备上。语音识别将是这种转变的核心所在。”

评论排行

推荐阅读

专题

大家都在看