深度学习之激活函数.doc

深度学习之激活函数.doc

ID:50554190

大小:1.02 MB

页数:10页

时间:2020-03-10

深度学习之激活函数.doc_第1页
深度学习之激活函数.doc_第2页
深度学习之激活函数.doc_第3页
深度学习之激活函数.doc_第4页
深度学习之激活函数.doc_第5页
资源描述:

《深度学习之激活函数.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、深度学习激活函数1.简述在神经元的数学模型中,轴突所携带的信号(例如:x0)通过突触进行传递,由于突触的强弱不一,假设我们以w0表示,那么我们传到下一个神经元的树突处的信号就变成了w0x0。其中突触强弱(参数w)是可学的,它控制了一个神经元对另一个神经元影响的大小和方向(正负)。然后树突接收到信号后传递到神经元内部(cellbody),与其他树突传递过来的信号一起进行加和,如果这个和的值大于某一个固定的阈值的话,神经元就会被激活,然后传递冲激信号给树突。在数学模型中我们假设传递冲激信号的时间长短并不重要,只有神经元被激活的频率用于传递信息。我们将是否

2、激活神经元的函数称为激活函数(activationfunctionf),它代表了轴突接收到冲激信号的频率。2.意义激活函数是用来引入非线性因素的。网络中仅有线性模型的话,表达能力不够。比如一个多层的线性网络,其表达能力和单层的线性网络是相同的。网络中卷积层、池化层和全连接层都是线性的,所以,需要在网络中加入非线性的激活函数层。3.性质激活函数一般具有一下性质:l非线性:弥补线性模型的不足;l处处可导:反向传播时需要计算激活函数的偏导数,所以要求激活函数除个别点外,处处可导;l单调性:当激活函数是单调的时候,单层网络能够保证是凸函数;l输出值的范围:当

3、激活函数输出值是有限的时候,基于梯度的优化方法会更加稳定,因为特征的表示受有限权值的影响更显著;当激活函数的输出是无限的时候,模型的训练会更加高效,不过在这种情况下,一般需要更小的learningrate。1.常见激活函数不同的激活函数效果有好有坏,一般比较常见的激活函数有sigmoid、tanh和Relu,其中Relu由于效果最好,现在使用的比较广泛。3.1Sigmoid函数Sigmoid函数表达式为:它将输入值映射到[0,1]区间内,其函数图像如下图:从数学上来看,非线性的Sigmoid函数对中央区的信号增益较大,对两侧区的信号增益小,在信号的特

4、征空间映射上,有很好的效果。从神经科学上来看,中央区酷似神经元的兴奋态,两侧区酷似神经元的抑制态,因而在神经网络学习方面,可以将重点特征推向中央区,将非重点特征推向两侧区。sigmoid的优点在于输出范围有限,所以数据在传递的过程中不容易发散。Sigmoid有一个十分致命的缺点就是它的导数值很小(sigmoid函数导数图像如下图),其导数最大值也只有1/4,而且特别是在输入很大或者很小的时候,其导数趋近于0。这直接导致的结果就是在反向传播中,梯度会衰减的十分迅速,导致传递到前边层的梯度很小甚至消失(killgradients),训练会变得十分困难。还

5、有就是sigmoid函数的计算相对来说较为复杂(相对后面的relu函数),耗时较长,所以由于这些缺点,现在已经很少有人使用sigmoid函数。另外,Sigmoid的output不是0均值. 这是不可取的,因为这会导致后一层的神经元将得到上一层输出的非0均值的信号作为输入。产生的一个结果就是:如果数据进入神经元的时候是正的(e.g. x>0 elementwisein f=wTx+b),那么 w 计算出的梯度也会始终都是正的。 如果按batch去训练,那么batch可能得到不同的信号,所以这个问题可以缓解一下的。因此,非0均值这个问题虽然会产生一些不好

6、的影响,不过跟上面提到的killgradients问题相比还是要好很多的。3.2Tanh函数Tanh函数表达式为:它将输入值映射到[-1,1]区间内,其图像为:Tanh函数是Sigmoid函数的一种变体;与sigmoid不同的是,tanh是0均值的。因此,实际应用中,tanh会比sigmoid更好,但Tanh函数现在也很少使用。3.3ReLu(RectifiedLinearUnits)激活函数Relu函数为现在使用比较广泛的激活函数,其表达式为当输入x<0时,输出为0;当x>0时,输出等于输入值。Relu函数相对于前边2种激活函数,有以下优点:lRe

7、lu函数的计算十分简单,前向计算时只需输入值和一个阈值(这里为0)比较,即可得到输出值。在反向传播时,Relu函数的导数为,计算也比前边2个函数的导数简单。l由于relu函数的导数为,即反向传播时梯度要么为0,要么不变,所以梯度的衰减很小,即使网路层数很深,前边层的收敛速度也不会很慢。Relu函数也有很明显的缺点,就是在训练的时候,网络很脆弱,很容易出现很多神经元值为0,从而再也训练不动。一般我们将学习率设置为较小值来避免这种情况的发生。为了解决上面的问题,后来又提出很多修正过的模型,比如Leaky-ReLU、ParametricReLU和Rando

8、mizedReLU等,其思想一般都是将x<0的区间不置0值,而是设置为1个参数与输入值相乘的形式,如αx,并

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。