李理：自动梯度求解反向传播算法的另外一种视角

　　本系列文章面向深度学习研发者，希望通过ImageCaptionGeneration，一个有意思的具体任务，深入浅出地介绍深度学习的知识。本系列文章涉及到很多深度学习流行的模型，如CNN，RNN/LSTM，Attention等。本文为第四篇。

　　作者：李理

　　目前就职于环信，即时通讯云平台和全媒体智能客服平台，在环信从事智能客服和智能机器人相关工作，致力于用深度学习来提高智能机器人的性能。

　　李理：从Image Caption Generation理解深度学习（partI）

　　李理：从Image Caption Generation理解深度学习（partII）

　　李理：从Image Caption Generation理解深度学习（partIII）

　　前面我们讲过了反向传播算法的详细推导过程，大家可能会觉得有些复杂。事实上其实就是链式求导法则的应用。今天我们将会继续讨论这个问题，不过是从Computational Graphs的角度，也就是我们之前说过的自动求导(Automatic Differentiationor Reverse-mode Differentiation)。并且通过CS231n的Assignment2来学习使用这种方法，通过这种方法来实现一个多层的神经网络。

　　Calculus on Computational Graphs:Backpropagation

　　首先我们介绍一篇博客文章：https://colah.github.io/posts/2015-08-Backprop/基本是翻译过来，不过部分地方是我自己的理解，建议读者结合这篇文章一起阅读。

　　简介

　　反向传播算法是神经网络的核心算法，不过这个算法在不同的领域被多次”发现“过，因此有不同的名称。

　　计算图(Computational Graphs)

　　考虑一个简单的函数e=(a+b)∗(b+1)e=(a+b)∗(b+1)。这个函数有两个操作(函数)，加法和乘法。为了指代方便，我们引入两个中间变量，c和d。

　　c=a+b

　　d=b+1

　　e=c*d

　　下面我们把它画成一个计算图，每一个操作是图中一个节点，最基本的变量a和b也是一个节点。每个节点和它的输入变量直接有一条边。比如d的输入变量是b，那么d和b直接就有一条边。

　　任何一个显示定义的函数（隐函数不行，不过我们定义的神经网络肯定不会通过隐函数来定义）都可以分解为一个有向无环图（树），其中叶子节点是最基本的无依赖的自变量，而中间节点是我们引入的中间变量，而树根就是我们的函数。比如上面的例子，计算图如下所示：

　　给定每一个自变量的值，我们可以计算最终的函数值，对应与神经网络就是feedforward计算。具体用”算法“怎么计算呢？首先因为计算图是一个有向无环图，因此我们可以拓扑排序，先是叶子节点a和b，他们的值已经给定，然后删除a和b出发的边，然后c和d没有任何未知依赖，可以计算，最后计算e。计算过程如下图：

　　计算图的导数计算

　　首先我们可以计算每条边上的导数，也就是边的终点对起点的导数，而且导数是在起点的取前向计算值时的导数，具体过程如图所示：

　　有些边的导数不依赖于输入的值，比如：

　　但是还有很多边的导数是依赖于输入值的，比如：

　　因为在“前向”计算的过程中，每个节点的值都计算出来了，所以边的计算很简单，也不需要按照什么的顺序。

　　不过我们一般比较感兴趣的是最终函数对某个自变量的导数，比如

　　根据链式法则，只要找到这两个节点的所有路径，然后把路径的边乘起来就得到这条边的值，然后把所有边加起来就可以了。

　　比如上面的例子b到e有两条路径：b->c->e和b->d->e，所以

　　如果用“链式”法则来写就是

　　路径反过来而已。

　　使用上面的方法，我们可以计算任何一个点（上面的变量）对另外一个点（上面的变量）的导数。不过我们一般的情况是计算树根对所有叶子的导数，当然我们可以使用上面的算法一个一个计算，但是这样会有很多重复的计算。

　　比如a->e的路径是a->c->e，b->e有一条边是b->c->e，其中c->e是重复的【这个例子不太好，我们可以想像c->e是一条很长的路径】，每次都重复计算c->e这个“子”路径是多余的。我们可以从后往前计算，也就是每个节点都是存放树根变量(这个例子是e)对当前节点的导数（其实也就是树根到当前节点的所有路径的和）。

　　反向导数计算