机器学习中常见的几种优化方法.doc

机器学习中常见的几种优化方法.doc

ID:57424986

大小:23.00 KB

页数:18页

时间:2020-08-17

机器学习中常见的几种优化方法.doc_第1页
机器学习中常见的几种优化方法.doc_第2页
机器学习中常见的几种优化方法.doc_第3页
机器学习中常见的几种优化方法.doc_第4页
机器学习中常见的几种优化方法.doc_第5页
资源描述:

《机器学习中常见的几种优化方法.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、机器学习中常见的几种优化方法阅读目录1.梯度下降法(GradientDescent)2.牛顿法和拟牛顿法(Newton'smethod&Quasi-NewtonMethods)3.共轭梯度法(ConjugateGradient)4.启发式优化方法5.解决约束优化问题——拉格朗日乘数法  我们每个人都会在我们的生活或者工作中遇到各种各样的最优化问题,比如每个企业和个人都要考虑的一个问题“在一定成本下,如何使利润最大化”等。最优化方法是一种数学方法,它是研究在给定约束之下如何寻求某些因素(的量),以使某一(或某些)

2、指标达到最优的一些学科的总称。随着学习的深入,博主越来越发现最优化方法的重要性,学习和工作中遇到的大多问题都可以建模成一种最优化模型进行求解,比如我们现在学习的机器学习算法,大部分的机器学习算法的本质都是建立优化模型,通过最优化方法对目标函数(或损失函数)进行优化,从而训练出最好的模型。常见的最优化方法有梯度下降法、牛顿法和拟牛顿法、共轭梯度法等等。回到顶部1.梯度下降法(GradientDescent)  梯度下降法是最早最简单,也是最为常用的最优化方法。梯度下降法实现简单,当目标函数是凸函数时,梯度下降法的解是全局

3、解。一般情况下,其解不保证是全局最优解,梯度下降法的速度也未必是最快的。梯度下降法的优化思想是用当前位置负梯度方向作为搜索方向,因为该方向为当前位置的最快下降方向,所以也被称为是”最速下降法“。最速下降法越接近目标值,步长越小,前进越慢。梯度下降法的搜索迭代示意图如下图所示:  牛顿法的缺点:  (1)靠近极小值时收敛速度减慢,如下图所示;  (2)直线搜索时可能会产生一些问题;  (3)可能会“之字形”地下降。  从上图可以看出,梯度下降法在接近最优解的区域收敛速度明显变慢,利用梯度下降法求解需要很多次的迭代。  在

4、机器学习中,基于基本的梯度下降法发展了两种梯度下降方法,分别为随机梯度下降法和批量梯度下降法。  比如对一个线性回归(LinearLogistics)模型,假设下面的h(x)是要拟合的函数,J(theta)为损失函数,theta是参数,要迭代求解的值,theta求解出来了那最终要拟合的函数h(theta)就出来了。其中m是训练集的样本个数,n是特征的个数。  1)批量梯度下降法(BatchGradientDescent,BGD)  (1)将J(theta)对theta求偏导,得到每个theta对应的的梯度:  (2)由

5、于是要最小化风险函数,所以按每个参数theta的梯度负方向,来更新每个theta:  (3)从上面公式可以注意到,它得到的是一个全局最优解,但是每迭代一步,都要用到训练集所有的数据,如果m很大,那么可想而知这种方法的迭代速度会相当的慢。所以,这就引入了另外一种方法——随机梯度下降。  对于批量梯度下降法,样本个数m,x为n维向量,一次迭代需要把m个样本全部带入计算,迭代一次计算量为m*n2。  2)随机梯度下降(RandomGradientDescent,RGD)  (1)上面的风险函数可以写成如下这种形式,损失函数对

6、应的是训练集中每个样本的粒度,而上面批量梯度下降对应的是所有的训练样本:  (2)每个样本的损失函数,对theta求偏导得到对应梯度,来更新theta:  (3)随机梯度下降是通过每个样本来迭代更新一次,如果样本量很大的情况(例如几十万),那么可能只用其中几万条或者几千条的样本,就已经将theta迭代到最优解了,对比上面的批量梯度下降,迭代一次需要用到十几万训练样本,一次迭代不可能最优,如果迭代10次的话就需要遍历训练样本10次。但是,SGD伴随的一个问题是噪音较BGD要多,使得SGD并不是每次迭代都向着整体最优化方向

7、。  随机梯度下降每次迭代只使用一个样本,迭代一次计算量为n2,当样本个数m很大的时候,随机梯度下降迭代一次的速度要远高于批量梯度下降方法。两者的关系可以这样理解:随机梯度下降方法以损失很小的一部分精确度和增加一定数量的迭代次数为代价,换取了总体的优化效率的提升。增加的迭代次数远远小于样本的数量。  对批量梯度下降法和随机梯度下降法的总结:  批量梯度下降---最小化所有训练样本的损失函数,使得最终求解的是全局的最优解,即求解的参数是使得风险函数最小,但是对于大规模样本问题效率低下。  随机梯度下降---最小化每条样本

8、的损失函数,虽然不是每次迭代得到的损失函数都向着全局最优方向,但是大的整体的方向是向全局最优解的,最终的结果往往是在全局最优解附近,适用于大规模训练样本情况。回到顶部2.牛顿法和拟牛顿法(Newton'smethod&Quasi-NewtonMethods)  1)牛顿法(Newton'smethod)  牛顿法是一种在实

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。