破局AI企业同质化，声纹产业如何突破场景创新？张钹院士这样说

　　在第二届声纹识别产业发展与创新研讨会上，中国科学院院士、清华大学人工智能研究院院长张钹首次谈到第三代人工智能与声纹识别产业，本文为张钹院士发言内容总结，全文约2900字。

　　我们为什么提出第三代人工智能？

　　它与声纹识别产业有什么关系？

　　人工智能这60年间一共做了两件事。

　　一是发展第一代人工智能，就是大家比较熟悉的符号模型，也叫知识驱动。

　　基本思路是：智能来自何处？来自知识，知识是人类智能的源泉。这是最早建立人工智能的时候所建立的基本思想。这个思想对声音的处理，就是对语音识别，包括声纹都有一些影响。

　　第一代人工智能时期

　　大概在70、80年代基本上统治了人工智能，所以人工智能对各个领域都有影响。对声音处理的主要影响是大家试图通过发声和听觉的机理来建立计算模型。早期做过很多努力，但是并没有成功。主要原因是我们对人类听觉机理了解的很少，这也是人工智能遇到的最大困难。我们对智能是什么到现在为止还没有一个公认的科学定义，但是我们要在这种情况下去搞人工智能，怎么搞？这就出现一个很大的问题。

　　当初大家觉得可以搞人工智能，就认为人类的智能来自于知识，知识在很多情况下可以用自然语言表达出来。根据这个思路，对比如医疗诊断或者其他的领域都做了一些所谓以知识为基础的推理系统，这就是大家非常熟悉的专家系统。它的基本思路就是认为人类的知识可以用自然语言表达出来，因此我们可以把这些知识表达在计算机里头，计算机对知识进行加工，这是第一代人工智能。

　　第一代人工智能到到90年代以前不是特别成功，90年代以后人工智能有了很多新的发展，给知识驱动的方法也带来新的活力。

　　第二个就是现在大家非常熟悉的连接主义或者深度学习。

　　第二代人工智能时期

　　讲的简单一点就是基于大数据的深度学习。90年代后，第一代人工智能进入低潮开始衰退，正好第二代人工智能引起了高潮。

　　深度学习为什么现在这么受欢迎，一个非常重要的原因是，原来输进去的语音和图像必须人工抽取特征，然后把这些特征输到神经网络去，对它进行分类。有了深度学习以后有了很大改变，只需要输入原始的信息就可以了。声音基本上可以用原始的波形输进去，图像可以输入原始的像素组成的点阵，由网络自动抽取特征。这样一来就使得深度学习变成了一个大众化的工具，不要求你有专业领域的知识，谁都可以用。

　　过去搞人脸识别必须知道抽取脸部哪部分的特征最有效。现在你只要把组成人脸的像素输进去就可以。换句话讲，以前搞人脸识别，大部分时间要花去研究特征的提取，现在有了深度学习，这一部分的工作完全不需要了，这也给语音识别带来很大的影响。

　　语音识别在2011年以前，基本上正确率是80%，误识率20%，几乎不能用。到2015年的时候超过95%，到了2017年的时候，所有商业应用的语音识别系统全是用深度学习，包括亚马逊、微软、我们国家的百度、讯飞，都是用同一原理-深度学习。所以大家做到的水平基本上都差不多，在95%以上。

　　那么我们再看一下第一二代人工智能的局限性。这些局限性对产业的发展影响非常大，首先应用场景就有很大的局限，应用场景必须要满足一下这5个条件：

　　必须具有丰富的知识或者大量的数据。如果这两个都没有，就做不了人工智能。第一代人工智能认为智能的资源是来自知识，这是人工智能创建人一致的认识。深度学习的发展，大家又认识到到数据对人工智能的重要性。人工处理数据的能力远不如计算机，相反，计算机处理数据的能力则远超过人类，这也是深度学习成功的原因所在。

　　如果符合丰富的知识或经验、完全信息、确定性、静态、单领域和单任务这5个条件，人工智能完全可以做到超过人类。即使问题非常复杂，比如围棋，但它完全符合这5个条件，所以计算机战胜人类理所当然。只要符合这5个条件，就算今天超不过，明天计算机肯定会超过。

　　这5个条件的限制是非常严格的，很多问题不满足这些条件。

　　对语音识别来讲，如果有噪声，就不满足“确定性”这一条件。所以在有噪声的情况下，语音识别的性能就会降低非常多。

　　最后一个非常重要的问题是人工智能安全。

　　目前的人工智能技术，特别是基于大数据的深度学习算法具有4个不：不安全、不可信、不可靠，不易推广。

　　安全问题对语音区别也有很大的影响。刚才说过，深度学习给语音识别带来非常大的好处，它的识别率原来几乎不能用，到现在完全可以商用。但语音识别技术也非常脆弱和非常不安全。

　　下面的例子用来说明语音识别的脆弱性。

　　英文（语音）原话是这样：“没有数据集这篇文章是没用的”，如果在这句话加上一点点噪声，人听起来完全一样没有变。计算机听起来却变成完全不同的话——“好的，谷歌浏览evil。com”。

　　换句话讲，非常不安全，非常容易受攻击，这就非常危险。

　　为什么现在声纹识别比较鲁棒？这个问题我是从郑方老师那里受到启发。声纹现在没有完全使用基于大数据的深度学习方法，据郑老师讲使用深度学习效果并不太好。

　　为什么声纹识别到现在为止还没有找到一个非常有效的攻击手段？原因之一可能在这里，就是运用了多种的预处理方法，“预处理”实际上体现了某种知识的运用。所以目前来讲我认为声纹识别带有第三代人工智能的一些特点，所以它相对来讲比较鲁棒。

　　我们提倡第三代人工智能。

　　第三代人工智能一共是三句话：

　　1.构建可解释和鲁棒的人工智能理论和方法。

　　2.发展安全、可信、可靠和可扩展的人工智能技术。（就是把目前人工智能四个缺陷的“不”去掉）

　　3.推动AI的创新应用。

　　我们要解决AI的产业问题，必须解决前面讲的两个问题，不解决的话AI的产业的是很难做大做强。解决问题的思路也比较简单，即把知识驱动与数据驱动结合起来。结合起来的效果是什么？即充分利用了以下4个要素：知识、数据、算法和算力。

　　第一代人工智能使用了知识、算法和算力，当时算力很差，所以第一代人工智能不是很成功。第二代人工智能，我们把重点瞄准后面三个要素，数据、算法和算力。第二代人工智能之所以比较成功，由于这三个要素都很给力。

　　充分利用四个要素说起来容易做起来却非常难，因为知识和数据表现形式完全不一样。另外，知识很难获取，我们刚才说做人工智能的困难在哪？智能本身都没搞清楚怎么去做人工智能？当前多数人走的是：Brain inspired computing（脑启发下计算）的道路，有的把它翻译成“类脑计算”，让大家以为是个全新的东西。

　　大家都很关注人工智能的产业化，我这里列出的人工智能独角兽企业（来自胡润统计），全世界共40家，其中美国占20家，中国占15家，我国稳居老二地位。其他英国、日本、以色列等国家相对都很少。但无论是国内还是国际企业都面临进一步做大做强的挑战。

　　如何把声纹产业做大做强？我认为主要是要寻找新的应用场景。我们团队现在正在把语音识别或声纹识别技术应用到呼吸系统的诊断上，取得很好的效果，也可以考虑把声音识别的技术用到诊断机械故障等等。

　　清华大学人工智能研究院目前已经成立了9个中心，其中两个偏重于基础研究，一个是从机器学习的角度，一个是从知识处理的角度。我认为，知识和数据是驱动人工智能往前发展的两个轮子。

评论排行

推荐阅读

专题

大家都在看

CTI论坛会员企业