欢迎来到天天文库
浏览记录
ID:8964721
大小:21.41 KB
页数:3页
时间:2018-04-13
《ieee论文部分翻译《canthreshldnetworksbetraineddirectly》》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、阈值网络可以被直接训练么第29号PDF320110013201100134姚永强抽象说,带有阈值激活功能的神经网络是被很期望得到的,因为其在硬件方面是易于实现的。但是,流行的基于梯度的学习算法不可以被直接应用于训练这些网络,因为阈值函数的非线性不可微。文献中可以使用的方法主要关注点是用s型的函数来逼近阈值激活函数。在本篇论文中,我们从理论上展示了最近开发的极端学习机器(ELM)算法可以直接用阈值函数来训练这种神经网络而不是用s型的函数来逼近。建立于现实世界的基准回归问题上的实验数据证明通过ELM得到普遍的表现是优于其他用于阈值网络的算
2、法。同时,这种ELM的方法不需要去控制变量(手动调优参数)并且更快。索引词-----极端学习机器(ELM)梯度下降方法阈值神经网络1介绍多层的神经网络在过去的几十年里引起了很大的兴趣,尽管这个带有模拟激活功能神经系统如s型或者正弦在隐藏的层次中有很强的计算能力,但是带有阈值和硬限幅激活函数的网络在隐藏的层次中仍然是希望得到的由于以下的原因(1)这个阈值单元在硬件方面是易于实现的。(2)用了阈值单元的网络的大小及训练的复杂性之间的关系以更易于理解的。但是,这种广泛应用的误差反向传播学习(BP)算法以及它的变化体不能被直接应用于去训练这种
3、阈值神经网络因为阈值函数非线性不可微,因此在文献当中,为了修正基于梯度的学习方法以使其并不是直接应用于带有阈值单元的网络已经耗费了不少的努力。BP和它的变化体经常是很慢的并且会面临局部最小的问题在学习当中,这个验证的过程(控制变量的选择比如学习率,隐藏神经元的数量,以及学习的周期)是很复杂的并且时时挑战用户,特别是那些几乎没有神经网络方面知识的人们。在学习过程中所涉及的大量的计算的消耗使得完成以芯片的形式完成一个在线的学习系统变得相当的困难,因此,这些算法一般是首先线下训练的之后所有的神经网络的参变量(重量和偏见)被转化到阈值网络以硬
4、件的形式来实现。最近,一个应用于单隐层前馈神经网络(SLFNs)的神奇的学习方法叫做极端学习机器(ELM)的算法在黄的论文中被提出。在这个算法中输入权重(连接着输入神经元与隐藏神经元之间的联系)以及隐藏的神经元的偏置是随机分配的是基于连续分布概率(在我们的仿真中统一使用的分布概率)而随机产生的并且保持固定。输出权重在分析的基础上加以确定。ELM比传统的BP学的更快并且没有一般化表现的损失。就像黄所说明的那样,ELM算法同样适用于带有阈值单元的神经网络,然而,一个对于阈值神经网络的ELM的详尽表现的研究迟迟没有进行而这篇文章将填补空缺。
5、这篇论文的目的主要有两层:(1)在理论上证明,对于s型的网络相似于ELM,输入的权重和阈值系统的偏置也可以被随机分配基于连续分布的概率(就像在我们的仿真中统一使用的分布概率)因此ELM可以很简单的被应用于训练这种网络并且不需要任何的修正。(2)提供一个ELM的对于阈值单元的详尽的进化的表现,基于大量的许多现实世界的基准回归问题。仿真的结果显示出对于阈值网络的ELM比通过其他途径训练的BP在普遍化方面实现的更好。2对于阈值网络的学习算法的主要观点因为阈值函数非线性不可微,以及对于多层前馈神经网络的梯度下降学习算法不能被直接应用。因此,在
6、文献中一系列的对于梯度下降方法的修正已经被提出来。Tom提出了一个对于网络的梯度下降学习算法用集成的激活函数,这个函数由线性的s型函数和阈值函数组合而成为F(x)=bS(x)+(1-b)θ(x)此处的S(x)是s型的函数而θ(X)是一个阈值函数当b=1的时候这个学习就开始了。在学习的过程当中b是逐渐降到0的。因此隐藏神经元激活函数就逐渐从一个纯模拟单元转化成纯阈值单元,这个激活函数f(x)并不是一个直接的阈值函数并且是处处非线性不可微的除了在x=0的时候。Crown已经提出了一种用阈值函数来训练多层网络的迭代的方法。这个s型的函数有一
7、个增益参数λ被应用在训练中而不是阈值函数的直接应用,如果训练的错误是很小的,这个参数增益λ在学习的过程中是逐渐增长的直到s型函数的斜率是足够大的,从而允许其转化成阈值函数以相同的架构。但是,在很多情况下,这个错误并不是足够的小来使得λ增加,从另一方面来说,图一中显示的那样,λ的值要足够的大来使s型单元很好的接近于阈值单元。在一个非常近似于BP的模式中,Goodman和Zeng计算了“伪梯度”(而不是真正的梯度),用一个s型函数的梯度作为一个启发式的脉冲来代替硬限幅函数。就像Goodman和Zeng评价的那样,这个“伪梯度”在隐藏的层中
8、存在不准确性。Bartlett和Downs提出了一个基于梯度下降途径的概率分布,这个途径假设单元的权重w是概率密度函数f(w)的随机变量,当这些权重均匀的分布在平均水准μ和标准差σ时,此时这个网络的训练可以轻易地实现通过
此文档下载收益归作者所有