博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
深度学习第一课——神经网络
阅读量:2173 次
发布时间:2019-05-01

本文共 2989 字,大约阅读时间需要 9 分钟。

直观解释

神经网络模型,我自己用一句话对其进行概括就是:通过不断的训练,学习出一个函数(即不断调整这个函数的各个参数),使得这个函数在训练集上可以很好的拟合训练样本的真实输出,因为理论上前馈神经网络,只需具备单隐含层和有限个神经单元,就能以任意精度拟合任意复杂度的函数,这是个已经被证明了的定理。比如来看下面这张图:

在这里蓝色的点表示我们的训练样本,行坐标表示的是样本的特征,为了简单起见这里假设输入的特征是一维的,纵坐标表示输出。光从这些蓝色的点我们可以看到这些样本大致呈显出以一定规律分布,即其分布可能与某个函数(红色曲线表示)的变化相一致,而为了预测后续输入(比如说x=5)的可能输出值,我们就需要学习出这样的一个函数。由于噪声的影响,这些样本不可能完全落在曲线上,而是会存在一定的偏差,因此我们学习的过程就是:首先初始化这条曲线的参数(系数),然后通过不断地对函数的各个参数进行调整使得训练样本距离曲线的总误差最小,这样得到的一个函数能够较好的对训练样本进行拟合,即能够较好的反应数据的分布规律。

神经网络的结构

这是一个神经元的结构,x_1,x_2,...,x_n为神经元的输入,w_1,w_2,...,w_n为各输入的权重,Σ执行操作z=b+\sum_{i=1}^{n} ( w_ix_i),f为激活函数,将z输入到激活函数中的到神经元的输出a=f(b + \sum _{i=1}^{n} w_ix_i),b成为神经元的偏置。神经网络即由众多神经元连接而构成,由下图所示:

这是一个四层的神经网络(严格来说为三层,即不包括输入层L0层在内),其中L0为输入层,L3为输出层,L1和L2为隐藏层(之所以称之为隐藏层,是因为我们在训练数据中无法直接观测到它们的值,而只能观测到输入层和输出层)。除了输入层外,每个神经元都有偏置b以及输入的权重w_i,因为输入层只是作为神经网络的输入,不需要提供其他的功能。为了叙述方便,约定一下符号表示:w_{ij}^{[l]}表示第l-1层中的第i个神经元与第l层中的第j个神经元之间的连接权重;b_j^{[l]}表示第l层中第j个神经元的偏置;z_{j}^{[l]} = b_j^{[l]} + \sum_{i=1}^{n} w_{ij}^{[l]}a_i^{[l-1]}作为第l层第j个神经元的加权输入;a^{[l]}_j = f(z_j^{[l]})表示第l层第j个神经元的激活值;w_j^{[l]}表示第l层第j个神经元的权重向量;n^{[l]}表示第l层神经元的数量,w^{[l]}表示第l层神经元的权重矩阵,其为形状为b^{[l]}表示第l层神经元的的偏置向量,其为一个行向量;z^{[l]}表示第l层神经元的加权输入向量,也为行向量;a^{[l]}表示第l层神经元的输出向量,为行向量。

神经网络模型的学习的目的是要让学习到的模型能够很好的对训练样本进行拟合,为了评估模型对样本的拟合程度,这里需要定义一个损失函数,用于计算单个样本的预测输出和真实输出的误差,那么对训练集上的所有样本的这样一个误差汇总后就得到模型在训练集上的整体误差,用代价函数J(也叫目标函数)表示。其学习过程是一个前向传播和反向传播的过程,即将样本的特征作为输入,经由神经网络的层层计算最后得到样本的预测输出,此为前向传播的过程。反向过程为,由目标函数从后往前逐层计算出各层权重和偏置的偏导:\frac{\partial J}{\partial w_{ij}^{[l]}}\frac {\partial J}{\partial b_j^{[l]},然后使用梯度下降法更新权重和偏置:

w_{ij}^{[l]} = w_{ij}^{[l]} - \eta \frac {\partial J}{\partial w_{ij}^{[l]}}                          (1)

b_j^{[l]} = b_j^{[l]} -\eta \frac{\partial J}{\partial b_j^{[l]}}                              (2)

在这里,η称为学习率,用于控制每次更新的“步伐”大小。因为梯度下降法是基于微分思想,即目标函数随着w_{ij}^{[l]}b_j^{[l]}的变化倾向是在一个很小的微元上成立的,因此η的值不宜设置过大,同时,η的值也不能够设置的过小,不然会使梯度下降算法收敛得特别慢。

 

 前向传播和反向传播

前向传播和反向传播的过程可以用下面这个图来描述:

前向传播

前向传播的过程比较简单,就是将样本的特征输入到网络并计算每一层的值,最终得到样本预测输出的一个过程。第l层第j个神经元的激活值的计算方式为:

a_j^{[l]} = f(z_j^{[l]})=f(\sum _{i=1}^{n} w_{ij}^{[l]}a_i^{[l-1]}+b_j^{[l]})                         (3)

对于激活函数的选取,最简单的是sigmoid,但是当神经网络的层数变大时有可能会导致的问题,梯度消失是指在层数较深的神经网络中,在进行反向传播链式求导时,由于连乘效应而导致前面隐藏层的梯度非常小使得前面隐藏层的权重和偏置更新非常缓慢几乎不变。因此可以考虑替代的使用ReLU、Leaky ReLU、ELU等激活函数。

公式(3)是计算第l层第j个神经元的激活值,通过矩阵乘法我们可以同时计算第l层所有神经元的激活值:

z^{[l]} = a^{[l-1]}w^{[l]}+b^{[l]}                                              (4)

a^{[l]}=f(z^{​{[l]}})                                                           (5)

公式(4)中z^{[l]}b^{[l]}均为n^{[l]}维的行向量,w^{[l]}n^{[l-1]}\times n^{[l]}的矩阵。公式(5)是计算第l层的激活值,本层的激活值又作为下一层的输入。

公式(4)和(5)是计算一个样本的前向传播过程,因此进一步扩展为同时计算一批样本的前向传播过程:

Z^{[l]} = A^{[l-1]} w^{[l]}+b^{[l]}                                            (6)

A^{[l]}=f(Z^{[l]})                                                         (7)

与(4)和(5)不同,(6)和(7)中的A^{[l]}Z^{[l]}为m个样本按行堆叠构成的矩阵,其形状为m\times n^{[l]},即矩阵的行表示不同的样本,列表示样本的特征。注意到(6)中A^{[l-1]}w^{[l]}m\times n^{[l]}的矩阵,而b^{[l]}1 \times n^{[l]}的行向量,两者的维度不一致,因此这里其实用到了python中的“广播”操作,即在进行矩阵的加法操作时,b^{[l]}会在行的方向上复制m次扩展为m\times n^{[l]}的矩阵。

反向传播

反向传播其实就是一个链式求导的过程,从输出层开始,从后往前逐层计算权重和偏置的偏导数。假设输出层为第L层,那么对于第L层来说,我们是希望得到\frac {\partial J}{\partial w^{[L]}_{ij}}\frac {\partial J}{\partial b^{[L]}_j},根据链式求导的法则

\frac {\partial J}{\partial w^{[L]}_{ij}} = \frac {\partial J}{\partial a^{[L]}_{j}} \cdot \frac {\partial a^{[L]}_{j}}{\partial z^{[L]}_{j}} \cdot \frac {\partial z^{[L]}_{j}}{\partial w^{[L]}_{ij}}                              (8)

\frac {\partial J}{\partial b^{[L]}_{j}} = \frac {\partial J}{\partial a^{[L]}_{j}} \cdot \frac {\partial a^{[L]}_{j}}{\partial z^{[L]}_{j}} \cdot \frac {\partial z^{[L]}_{j}}{\partial b^{[L]}_{j}}                                (9)

因此为了求得对w和b的偏导,需要先求得对a和z的偏导。这里损失函数我们直接选取平方误差:

Loss(a^{[L]}, y) = \frac {1}{2} \left \| a^{[L]} - y \right \|_{F}^{2} = \frac {1}{2} \sum _{j=1}^{n^{[L]}} (a_{j}^{[L]} - y_{j})^{2}                       (10)

添上\frac {1}{2}是为了求导方便。损失函数是计算单个样本的误差,代价函数(目标函数)是计算整个训练集中所有样本的整体误差,目标函数我们直接选取所有训练样本平方误差的均值:

J(A^{[L]}, Y) = \frac {1}{2m} \sum _{k=1}^{m} \left\| a^{[L](k) - y^{[L](k)}}\right\|_{F}^{2}                                            (11)

(11)中m为训练集样本数量,A和Y均为m \times n^{[L]}的矩阵,行表示不用样本,列表示样本的特征;(k)表示第k个样本。首先来看对一个样本求导过程,即看损失函数Loss(a^{[L]}_{j}, y)a^{[L]}_{j}偏导很简单:

\frac {\partial Loss}{\partial a^{[L]}_{j}} = a^{[L]}_{j} - y_{j}                                               (12)

a^{[L]}_{j}z^{[L]}_{j}求导为:

\frac {\partial a^{[L]}_{j}}{\partial z^{[L]}_{j}} = f'(z^{[L]}_{j})                                                    (13)

z^{[L]}_{j}w_{ij}^{[L]}b^{[L]}_{j}求导为:

\frac {\partial z^{[L]}_{j}}{\partial w_{ij}^{[L]}} = a^{[L-1]}_{i}                                                      (14)

\frac {\partial z^{[L]}_{j}}{\partial b^{[L]}_j} = 1                                                              (15)

于是由(12)~(15)可得到:

\frac {\partial Loss}{\partial z^{[L]}_{ij}} = (a^{[L]}_{j} - y_{j}) \cdot f'(z^{[L]}_{j})                             (16)

\frac {\partial Loss}{\partial w^{[L]}_{ij}} = \frac {\partial Loss}{\partial z^{[L]}_{j}} \cdot a^{[L-1]}_{i}=(a^{[L]}_{j} - y_{j})\cdot f'(z^{[L]}_{j})\cdot a^{[L-1]}_{i}                              (17)

\frac {\partial Loss}{\partial b^{[L]}_{j}} = \frac {\partial Loss}{\partial z^{[L]}_{j}}=(a^{[L]}_{j} - y_{j})\cdot f'(z^{[L]}_{j})                                                       (18)

(17)和(18)实现对L层的单个权重和偏置求导,使用矩阵运算可以实现对L层的所有权重和偏置同时求导。首先这里先引入hadamard积,hadamard积是指两个矩阵对应位置元素相乘,用\odot表示。

\frac {\partial Loss}{\partial w^{[L]}} = (a^{[L]} - y) \odot f'(z^{[L]}) \odot (a^{[L-1]})^{T}                                                   (19)

\frac {\partial Loss}{\partial b^{[L]}} = (a^{[L]} - y) \odot f'(z^{[L]})                                                                        (20)

在(19)中有广播操作,因为(a^{[L]} - y) \odot f'(z^{[L]})结果为1 \times n^{[L]}的行向量,而(a^{[L-1]})^{T}n^{​{L-1}} \times 1的列向量。进一步,将(19)和(20)扩展为目标函数J(A^{[L]}, Y)w^{[L]}b^{[L]}求导:

\frac {\partial J}{\partial Z^{[L]}} = (A^{[L]}-Y) \odot f'(Z^{[L]})                                                                     (21)

\frac {\partial J}{\partial w^{[L]}} = \frac {1}{m} (A^{[L-1]})^{T} ((A^{[L]}-Y) \odot f'(Z^{[L]}))                                                (22)

\frac {\partial J}{\partial b^{[L]}} = \frac{1}{m} np.sum(\frac {\partial J}{\partial Z^{[L]}}, axis=0,keepdims=True)                             (23)

(23)中求b的偏导时借用了python中的一句代码,功能是对\frac {\partial J}{\partial Z^{[L]}}矩阵的每一列求和后取平均值。

中间层的求导过程与输出层类似。损失函数对于第h层第i个神经元的偏导为:

\frac {\partial Loss}{\partial a^{[h]}_{i}} = \sum _{j=1}^{n^{[h+1]}} \frac {\partial Loss}{\partial z^{[h+1]}_{j}} \cdot w^{[h+1]}_{ij}                                       (24)

\frac {\partial a^{[h]}_{j}}{\partial z^{[h]}_{j}} = f'(z^{[h]}_j)                                                                (25)

\frac {\partial z^{[h]}_j}{\partial w^{[h]}_{ij}} = a^{[h-1]}_i                                                                  (26)

\frac {\partial z^{[h]}_j}{\partial b^{[h]}_j} = 1                                                                          (27)

因此由(24)~(27)可得到:

\frac {\partial Loss}{\partial z^{[h]}_{j}} = \frac{\partial Loss}{\partial a^{[h]}_j} \cdot f'(z^{[h]}_j)                                               (28)

\frac {\partial z^{[h]}_j}{\partial w^{[h]}_{ij}} = \frac {\partial Loss}{\partial z^{[h]}_j} \cdot a^{[h-1]}_i                                                    (29)

\frac {\partial Loss}{\partial b^{[h]}_j} = \frac {\partial Loss}{\partial z^{[h]}_j}                                                              (30)

使用矩阵运算同时对h层的所有权重和偏置求导可得:

\frac {\partial Loss}{\partial a^{[h]}} = \frac {\partial Loss}{\partial z^{[h+1]}} \cdot (w^{[h + 1]})^T                                           (31)

\frac {\partial Loss}{\partial z^{[h]}} = \frac {\partial Loss}{\partial a^{[h]}} \odot f'(z^{[h]})                                              (32)

\frac {\partial Loss}{\partial w^{[h]}} = \frac {\partial Loss}{\partial z^{[h]}} \cdot (a^{[h-1]})^T                                             (33)

\frac {\partial Loss}{\partial b^{[h]}} = \frac {\partial Loss}{\partial z^{[h]}}                                                               (34)

将(31)~(33)拓展为目标函数J(A^{[L]}, Y)w^{[h]}b^{[h]}求导可得:

\frac {\partial J}{\partial Z^{[h]}} = (\frac {\partial J}{\partial Z^{[h+1]}} \cdot (w^{[h+1]})^{T}) \odot f'(Z^{[h]})                                        (35)

\frac {\partial J}{\partial w^{[h]}} =( A^{[h-1]})^T \cdot \frac {\partial J}{\partial Z^{[h]}}                                                                 (36)

\frac {\partial J}{\partial b^{[h]}} = \frac {1}{m} np.sum(\frac {\partial J}{\partial Z^{[h]}}, axis=0, keepdims=True)              (37)

至此,反向传播推到结束。通过(21)~(23)以及(35)~(37)即可推到任意层权重和偏置的偏导,从而计算出目标函数的梯度,再使用上述提到的梯度下降法对所有的权重和偏置进行更新即完成一次迭代更新。通常我们的训练集非常的庞大,从而在进行反向传播计算偏导时运算量非常的大,非常耗时。因此在很多情况下我们并非直接采用标准的梯度下降法来更新权重和偏置,而是采用一种叫做mini-batch梯度下降的方法,即将整个训练集划分为规模更小的多个子集,每次只在这些规模较小训练集上使用梯度下降法来对权重和偏置进行一次迭代更新,当对所有的子集更新完一次后称为一轮(epoch)。在实际训练过程中,可以在每轮对训练集重新划分的条件下进行多轮训练以提高精度。

转载地址:http://yqhzb.baihongyu.com/

你可能感兴趣的文章
Eclipse Memory Analyzer 使用技巧
查看>>
tomcat连接超时
查看>>
谈谈编程思想
查看>>
iOS MapKit导航及地理转码辅助类
查看>>
检测iOS的网络可用性并打开网络设置
查看>>
简单封装FMDB操作sqlite的模板
查看>>
iOS开发中Instruments的用法
查看>>
iOS常用宏定义
查看>>
什么是ActiveRecord
查看>>
有道词典for mac在Mac OS X 10.9不能取词
查看>>
关于“团队建设”的反思
查看>>
利用jekyll在github中搭建博客
查看>>
Windows7中IIS简单安装与配置(详细图解)
查看>>
linux基本命令
查看>>
BlockQueue 生产消费 不需要判断阻塞唤醒条件
查看>>
强引用 软引用 弱引用 虚引用
查看>>
数据类型 java转换
查看>>
"NetworkError: 400 Bad Request - http://172.16.47.117:8088/rhip/**/####t/approval?date=976
查看>>
mybatis 根据 数据库表 自动生成 实体
查看>>
win10将IE11兼容ie10
查看>>