欢迎来到天天文库
浏览记录
ID:46823391
大小:208.32 KB
页数:5页
时间:2019-11-28
《梯度下降法、牛顿迭代法、共轭梯度法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、梯度下降法、牛顿迭代法、共轭梯度法(参见:神经网络->PGM-ANN-2009-C09性能优化)优化的目的是求出目标函数的最大值点或者最小值点,这里讨论的是迭代的方法梯度下降法首先,给定一个初始猜测值,然后按照等式(1)或(2)逐步修改猜测。这里向量代表一个搜索方向,一个大于零的纯量为学习速度,它确定了学习步长。当用进行最优点迭代时,函数应该在每次迭代时都减小,即考虑(3)的在的一阶泰勒级数展开:(4)其中,为在旧猜测值处的梯度(5)要使只需要(4)中右端第二项小于0,即(6)选择较小的正数。这就隐含。满足的任意向量成为一个下降方向。如果沿着此方向取足够小步长,函数一定递减。并且,
2、最速下降的情况发生在最小的时候,容易知道,当时最小,此时,方向向量与梯度方向相反。在(1)式中,令,则有(7)对于式(7)中学习速率的选取通常有两种方法:一种是选择固定的学习速率,另一种方法是使基于学习速率的性能指数或目标函数在每次迭代中最小化,即沿着梯度反方向实现最小化:。注意:1、对于较小的学习速度最速下降轨迹的路径总是与轮廓线正交,这是因为梯度与轮廓线总是正交的。2、如果改变学习速度,学习速度太大,算法会变得不稳定,振荡不会衰减,反而会增大。3、稳定的学习速率对于任意函数,确定最大可行的学习速度是不可能的,但对于二次函数,可以确定一个上界。令特征函数为:(8)那么梯度为代入最
3、速下降法公式(7)中(9)在动态系统中,如果矩阵的特征值小于1,则该系统是稳定的。可用赫森矩阵A的特征值来表示该矩阵的特征值,假设A的特征值和特征向量分别为和,那么(10)于是,最速下降法的稳定条件为(11)如果二次函数有一个强极小点,则其特征值为正数,上式可以化为由于该式对于赫森矩阵的所有特征值都成立则(12)分析:最大的稳定学习速度与二次函数的最大的曲率成反比。曲率说明梯度变化的快慢。如果梯度变化太快,可能会导致跳过极小点,进而使新的迭代点的梯度的值大于原迭代点的梯度的值(但方向相反)。这会导致每次迭代的步长增大。3、沿直线最小化选择学习速率的另一种方法是使得每次迭代的性能指数
4、最小化,即选择使得下式最小:对任意函数的这种最小化需要线性搜索。对二次函数解析线性最小化是可能的。上式对的导数为:(13)令式(13)导数为零求得(14)这里为的赫森矩阵:牛顿法牛顿法基于二阶泰勒级数:(15)牛顿法的原理是求的二次近似的驻点,求这个二次函数对的梯度并令它等于0,则有(16)解得:于是,牛顿法定义为(17)注意:牛顿法总是用一个二次函数逼近,然后求其驻点,因此此方法总能够一步找到二次函数的极小点,如果原函数为二次函数(有强极小点),它就能够实现一步极小化如果不是二次函数,则牛顿法一般不能在一步内收敛,是否收敛取决于具体的函数和初始点尽管牛顿法的收敛速度通常比最速下降
5、法快,但其表现很复杂,除了收敛到鞍点的问题外,算法还可能震荡和发散,如果学习速率不太快或每步都实现线性极小化,最速下降法能保证收敛牛顿法的另一个问题是需要对赫森矩阵及其逆阵的计算和存储共轭梯度法牛顿法有一个性质成为二次终结法(quadratictemination),即它能在有限迭代次数内使得二次函数极小化,但这需要计算和存储二阶导数,当参数个数很大时,计算所有二阶导数是很困难的。假定对下述二次函数确定极小点:(18)当且仅当时,称向量集合对于一个正定赫森矩阵A两两共轭。因为对称矩阵的特征向量是两两正交的。已经证明,如果存在沿着一个共轭方向集的精确线性搜索序列,就能够在最多n此搜索
6、内实现具有n个参数的二次函数的精确极小化。注意到对于二次函数,有(19)由于,又有,选择使函数在方向上极小化,则共轭条件可重写称(20)注意,第一次搜索方向是任意的,而是与垂直的任意向量。所以共轭向量集的数量是无限的。通常从最速下降法的方向开始搜索:每次迭代都要构造一个与正交的向量。可以将迭代形式简化为(21)通常选择或或综上,算法可以归纳为:1、选择如的与梯度相反的方向作为第一次搜索方向2、根据进行下一步搜索,确定以使函数沿搜索方向极小化3、根据确定下一个搜索方向,计算4、如果算法不收敛,回到第2步算法比较梯度下降法形式简单,一般情况下都能够保证收敛,但是收敛速度慢牛顿法对于二次
7、目标函数收敛速度快,但是不能够保证收敛,而且需要对赫森矩阵及其逆阵的计算和存储共轭梯度法结合了前面两种方法的性质,收敛速度快,不需要对赫森矩阵及其逆阵的计算和存储,但是形式比前两者复杂
此文档下载收益归作者所有