欢迎来到天天文库
浏览记录
ID:57648307
大小:169.56 KB
页数:17页
时间:2020-08-30
《机器学习与应用-第12讲-循环神经网络1.pptx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、序列数据建模让神经网络具有记忆功能循环层的原理输出层的原理完整的网络结构深层网络训练算法简介训练算法的推导时间序列预测问题有些问题要处理的数据是一个时间序列,即一个数列,每个时刻有一个值,一般情况下为一个向量各个时刻的值之间有关联对于自然语言处理,一句话中的所有词就是一个时间序列,每个词和前面的词有关,即上下文语境算法需要根据输入序列数据来产生预测值,即接受各个时刻的输入,然后产生预测值。这类问题称为序列预测问题典型例子语音识别-输入一段语音信号,即各个时刻的声音信号值,输出声音对应的文字自然语言处理-输入一句话,输出这句话的意图面临的问题序列的长度不固定算法要依
2、次接收每个时刻的输入值,然后产生输出值,因此需要有记忆功能,即能记住之前的信息实际例子-句子填空现在已经下午2点了,我们还没有吃饭,非常饿,赶快去餐馆__让神经网络具有记忆功能全连接神经网络,卷积神经网络,自动编码器,受限玻尔兹曼机,每次预测的时候只接受一个固定长度的输入向量,产生一个输出值神经网络各次运行之间没有关系,即不具有记忆功能如何才能具有记忆功能?利用之前时刻的值,将之前时刻的值保存下来,供后面的时刻使用循环层记住网络在上一个时刻运行时产生的状态值,并将该值用于当前时刻输出值的生成使用加法和权重来综合当前时刻的输入值,上一个时刻的状态值这是一个递推的数列
3、使用激活函数的原因和全连接神经网络,卷积神经网络相同和全连接神经网络相比,唯一的不同是记住了本层神经元在上一时刻的输出值(状态值),供本时刻使用循环层的状态值体现了记忆功能,按照时间线展开之后,它包含了从1时刻开始,到t时刻为止的信息注意,状态值的权重矩阵不随着时间变化,各个时刻的值是相同的,这样做的目的:减少参数的数量体现记忆功能循环层的每个神经元当前时刻的状态值,与本层其他所有神经元上一时刻的状态值都有关系,而不只和本神经元上一时刻的状态值有关输出层的原理输出层以循环层的输出值作为输入并产生循环神经网络最终的输出,它不具有记忆功能变换函数的类型根据任务而定,对
4、于分类任务一般选用softmax函数,输出各个类的概率完整的网络结构一个简单的循环神经网络,这个网络有一个输入层,一个循环层,一个输出层循环层的输出按照下面的公式计算输出层的计算公式为按照时间轴进行展开当输入为时,网络的输出为当输入为时,网络的输出为其他时刻以此类推t时刻的输出值和都有关循环神经网络通过递推的计算实现了记忆功能深层网络第一种方案称为DeepInput-to-HiddenFunction,它在循环层之前加入多个普通的全连接层,将输入向量进行多层映射之后再送入循环层进行处理第二种方案是DeepHidden-to-HiddenTransition,它使用
5、多个循环层,这和前馈型神经网络类似,唯一不同的是计算隐含层输出的时候需要利用本隐含层上一时刻的值第三种方案是DeepHidden-to-OutputFunction,它在循环层到输出层之间加入多个全连接层,这和第一种情况类似由于循环层一般用tanh作为激活函数,层次过多之后会导致梯度消失问题和残差网络类似,可以采用跨层连接的方案训练算法循环神经网络的输入是序列数据,每个训练样本是一个时间序列,包含多个相同维数的向量解决循环神经网络训练问题的算法是BackPropagationThroughTime算法,简称BPTT算法每个训练样本是一个时间序列,同一个训练样本前后
6、时刻的输入值之间有关联,每个样本的序列长度可能不相同训练时先对这个序列中每个时刻的输入值进行正向传播,再通过反向传播计算出参数的梯度值并更新参数只有一个循环层和一个输出层的循环神经网络正向传播时的变换为单个样本是一个时间序列,每个时刻都有损失,因此损失函数定义为沿着时间轴累加t时刻的损失函数循环神经网络的反向传播是基于时间轴进行的,需要计算所有时刻的总损失函数对所有参数的梯度,然后用梯度下降法进行更新循环神经网络在各个时刻的权重、偏置都是相同的考虑前面的简单网络,按照时间轴展开后为对比全连接神经网络的展开公式首先计算输出层偏置项的梯度如果选择softmax作为输出
7、层的激活函数函数,交叉熵作为损失函数,上面的梯度为对权重矩阵的梯度为下面考虑循环层根据之前的结论定义误差项为在整个损失函数中,比t更早的时刻的损失函数不含有,因此与它无关;由决定,和它直接相关;比t晚的时刻的都与有关。因此有由于因此有根据链式法则类似的有对偏置项的梯度为BPTT算法流程循环,对t=1,2,...,T对进行正向传播结束循环计算输出层权重和偏置的梯度用梯度下降法更新输出层权重和偏置的值循环,反向传播,对t=T,...,1计算误差项根据误差项计算循环层权重和偏置的梯度用梯度下降法更新循环层权重和偏置的值结束循环
此文档下载收益归作者所有