神经网络反向传播的数学原理

本文作者： AI研习社

编辑：贾智龙

2017-09-27 17:20

导语：反向传播最近争议这么大，数学原理是什么呢？

雷锋网按：本文原作者李飞腾，本文整理自知乎专栏——数字编程。雷锋网已获得转载授权。

如果能二秒内在脑袋里解出下面的问题，本文便结束了。

已知： $神经网络反向传播的数学原理$ ，其中 $神经网络反向传播的数学原理$ 。

求： $神经网络反向传播的数学原理$ ， $神经网络反向传播的数学原理$ ， $神经网络反向传播的数学原理$ 。

到这里，请耐心看完下面的公式推导，无需长久心里建设。

首先，反向传播的数学原理是 “求导的链式法则” :

设 $神经网络反向传播的数学原理$ 和 $神经网络反向传播的数学原理$ 为 $神经网络反向传播的数学原理$ 的可导函数，则 $神经网络反向传播的数学原理$ 。

接下来介绍

矩阵、向量求导的维数相容原则
利用维数相容原则快速推导反向传播
编程实现前向传播、反向传播
卷积神经网络的反向传播

快速矩阵、向量求导

这一节展示如何使用链式法则、转置、组合等技巧来快速完成对矩阵、向量的求导

一个原则维数相容，实质是多元微分基本知识，没有在课本中找到下列内容，维数相容原则是我个人总结：

维数相容原则：通过前后换序、转置 使求导结果满足矩阵乘法且结果维数满足下式：

如果 $神经网络反向传播的数学原理$ ， $神经网络反向传播的数学原理$ ，那么 $神经网络反向传播的数学原理$ 。

利用维数相容原则解上例：

step1：把所有参数当做实数来求导， $神经网络反向传播的数学原理$ ，

依据链式法则有 $神经网络反向传播的数学原理$ ， $神经网络反向传播的数学原理$ ， $神经网络反向传播的数学原理$

可以看出除了 $神经网络反向传播的数学原理$ ， $神经网络反向传播的数学原理$ 和 $神经网络反向传播的数学原理$ 的求导结果在维数上连矩阵乘法都不能满足。

step2：根据 step1 的求导结果，依据维数相容原则做调整：前后换序、转置

依据维数相容原则 $神经网络反向传播的数学原理$ ，但 $神经网络反向传播的数学原理$ 中 $神经网络反向传播的数学原理$ 、 $神经网络反向传播的数学原理$ ，自然得调整为 $神经网络反向传播的数学原理$ ；

同理： $神经网络反向传播的数学原理$ ，但 $神经网络反向传播的数学原理$ 中 $神经网络反向传播的数学原理$ 、 $神经网络反向传播的数学原理$ ，那么通过换序、转置我们可以得到维数相容的结果 $神经网络反向传播的数学原理$ 。

对于矩阵、向量求导：

“当做一维实数使用链式法则求导，然后做维数相容调整，使之符合矩阵乘法原则且维数相容” 是快速准确的策略；
“对单个元素求导、再整理成矩阵形式” 这种方式整理是困难的、过程是缓慢的，结果是易出错的（不信你试试）。

如何证明经过维数相容原则调整后的结果是正确的呢？直觉！简单就是美...

快速反向传播

神经网络的反向传播求得 “各层” 参数 $神经网络反向传播的数学原理$ 和 $神经网络反向传播的数学原理$ 的导数，使用梯度下降（一阶 GD、SGD，二阶 LBFGS、共轭梯度等）优化目标函数。

接下来，展示不使用下标的记法（ $神经网络反向传播的数学原理$ , $神经网络反向传播的数学原理$ or $神经网络反向传播的数学原理$ ）直接对 $神经网络反向传播的数学原理$ 和 $神经网络反向传播的数学原理$ 求导，反向传播是链式法则和维数相容原则的完美体现，对每一层参数的求导利用上一层的中间结果完成。

这里的标号，参考 UFLDL 教程 - Ufldl

前向传播：

$神经网络反向传播的数学原理$ （公式 1）

$神经网络反向传播的数学原理$ （公式 2）

$神经网络反向传播的数学原理$ 为第 $神经网络反向传播的数学原理$ 层的中间结果， $神经网络反向传播的数学原理$ 为第 $神经网络反向传播的数学原理$ 层的激活值，其中第 $神经网络反向传播的数学原理$ 层包含元素：输入 $神经网络反向传播的数学原理$ ，参数 $神经网络反向传播的数学原理$ 、 $神经网络反向传播的数学原理$ ，激活函数 $神经网络反向传播的数学原理$ ，中间结果 $神经网络反向传播的数学原理$ ，输出 $神经网络反向传播的数学原理$ 。

设神经网络的损失函数为 $神经网络反向传播的数学原理$ （这里不给出具体公式，可以是交叉熵、MSE 等），根据链式法则有：

$神经网络反向传播的数学原理$ $神经网络反向传播的数学原理$

这里记 $神经网络反向传播的数学原理$ ，其中 $神经网络反向传播的数学原理$ 、 $神经网络反向传播的数学原理$ 可由 公式 1 得出， $神经网络反向传播的数学原理$ 加转置符号 $神经网络反向传播的数学原理$ 是根据维数相容原则作出的调整。

如何求 $神经网络反向传播的数学原理$ ？可使用如下递推（需根据维数相容原则作出调整）：

$神经网络反向传播的数学原理$

其中 $神经网络反向传播的数学原理$ 、 $神经网络反向传播的数学原理$ 。

那么我们可以从最顶层逐层往下，便可以递推求得每一层的 $神经网络反向传播的数学原理$

注意： $神经网络反向传播的数学原理$ 是逐维求导，在公式中是点乘的形式。

反向传播整个流程如下：

1) 进行前向传播计算，利用前向传播公式，得到隐藏层和输出层的激活值。

2) 对输出层 (第 $神经网络反向传播的数学原理$ 层)，计算残差：

$神经网络反向传播的数学原理$ （不同损失函数，结果不同，这里不给出具体形式）

3) 对于 $神经网络反向传播的数学原理$ 的隐藏层，计算：

$神经网络反向传播的数学原理$

4) 计算各层参数 $神经网络反向传播的数学原理$ 、 $神经网络反向传播的数学原理$ 偏导数：

$神经网络反向传播的数学原理$
$神经网络反向传播的数学原理$

编程实现

大部分开源 library（如：caffe，Kaldi/src/{nnet1,nnet2}）的实现通常把 $神经网络反向传播的数学原理$ 、 $神经网络反向传播的数学原理$ 作为一个 layer，激活函数 $神经网络反向传播的数学原理$ 作为一个 layer（如：sigmoid、relu、softplus、softmax）。

反向传播时分清楚该层的输入、输出即能正确编程实现, 如：

$神经网络反向传播的数学原理$ (公式 1)

$神经网络反向传播的数学原理$ (公式 2)

(1) 式 AffineTransform/FullConnected 层，以下是伪代码：

神经网络反向传播的数学原理

注: out_diff = $神经网络反向传播的数学原理$ 是上一层（Softmax 或 Sigmoid/ReLU 的 in_diff）已经求得：

$神经网络反向传播的数学原理$ （公式 1-1）

$神经网络反向传播的数学原理$ （公式 1-2）

$神经网络反向传播的数学原理$ （公式 1-3）

(2) 式激活函数层（以 Sigmoid 为例）

注：out_diff = $神经网络反向传播的数学原理$ 是上一层 AffineTransform 的 in_diff，已经求得,

$神经网络反向传播的数学原理$

在实际编程实现时，in、out 可能是矩阵 (通常以一行存储一个输入向量，矩阵的行数就是 batch_size)，那么上面的 C++ 代码就要做出变化（改变前后顺序、转置，把函数参数的 Vector 换成 Matrix，此时 Matrix out_diff 每一行就要存储对应一个 Vector 的 diff，在 update 的时候要做这个 batch 的加和，这个加和可以通过矩阵相乘 out_diff*input（适当的转置）得到。

如果熟悉 SVD 分解的过程，通过 SVD 逆过程就可以轻松理解这种通过乘积来做加和的技巧。

丢掉那些下标记法吧！