随机梯度下降(Stochastic Gradient Descent ).pdf

随机梯度下降(Stochastic Gradient Descent ).pdf

ID:55075887

大小:374.07 KB

页数:13页

时间:2020-05-09

随机梯度下降(Stochastic Gradient Descent ).pdf_第1页
随机梯度下降(Stochastic Gradient Descent ).pdf_第2页
随机梯度下降(Stochastic Gradient Descent ).pdf_第3页
随机梯度下降(Stochastic Gradient Descent ).pdf_第4页
随机梯度下降(Stochastic Gradient Descent ).pdf_第5页
资源描述:

《随机梯度下降(Stochastic Gradient Descent ).pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、LeoZhangAsimplemanwithmyownideal导航博客园首页联系StochasticGradientDescent订阅管理一、从MultinomialLogistic模型说起统计信息1、MultinomialLogistic随笔-30文章-0令为维输入向量;评论-367Trackbacks-0为输出label;(一共k类);NEWS为模型参数向量;MultinomialLogistic模型是指下面这种形式:其中:例如:时,输出label为0和1,有:2、MaximumLikelihoodEstimateand

2、MaximumaPosterioriEstimate(1)、MaximumLikelihoodEstimate假设有数据集,为了训练一个模型通常使用极大似然法来确定模型参数:(2)、MaximumaPosterioriEstimate假设模型参数的分布服从,那么在给定数据集上我们想要找到的最佳参数满足以下关系:利用上面的式子可以定义求解该问题的损失函数:个人认为,从统计学习的角度来说,上面式子第一部分描述了偏差(经验风险),而第二部分描述了方差(置信风险)。3、L1-regularizedmodelandL2-regulari

3、zedmodel对模型参数的分布,可以有下面的假设:(1)、GaussianPrior(2)、LaplacePrior当时,叫做L2-regularized:当时,叫做L1-regularized:在这里常数是一个用来调节偏差与方差的调节因子:●很小时,强调likelihood,此时会造成Overfit;●很大时,强调regularization,此时会造成Underfit。在相同的条件下,GaussianPrior和LaplacePrior的比较如下:图1-红色为LaplacePrior,黑色为GaussianPrior4、

4、L1-regularizedmodel?orL2-regularizedmodel?目前主流的方法都选择用L1-regularized,包括各种L-BFGS(如:OWL-QN)和各种SGD方法,主要原因如下:●我们要优化的目标是:从图1可以看出,要想让取得最大值,权重向量需要靠近其mean值(也就是0),显然服从LaplacePrior的权重向量下降速度要快于服从GaussianPrior的;●以时的梯度下降算法为例,权重的更新方式如下:○GaussianPrior:○LaplacePrior:当时,;当时,。当与同号时表明没

5、有误分,权重的绝对值会以一个比较小的速度更新,而当与异号时误分发生,权重的绝对值会以一个比较大的速度更新。●将权重更新看成两个阶段:likelihood+regularization,暂时不考虑likelihood,那么k次迭代后有下面关系:○GaussianPrior:○LaplacePrior:当时,;当时,。当,虽然前者的极限值为0,但是不会精确为0,而后者每次更新一个常数,这就意味着理论上后者可能会精确的将权重更新为0。●L1-regularized能够获得稀疏的feature,因此模型训练过程同时在进行feature

6、selection。●如果输入向量是稀疏的,那么LaplacePrior能保证其梯度也是稀疏的。二、L1-StochasticGradientDescent1、NaiveStochasticGradientDescent随机梯度下降算法的原理是用随机选取的TrainingSet的子集来估计目标函数的梯度值,极端情况是选取的子集只包含一条Sample,下面就以这种情况为例,其权重更新方式为:这种更新方式的缺点如下:●每次迭代更新都需要对每个feature进行L1惩罚,包括那些value为0的没有用到的feature;●实际当中在

7、迭代时能正好把权重值更新为0的概率很小,这就意味着很多feature依然会非0。2、LazyStochasticGradientDescent针对以上问题,Carpenter在其论文《LazySparseStochasticGradientDescentforRegularizedMutlinomialLogisticRegression》(2008)一文中进行了有效的改进,权重更新采用以下方式:这种更新方式的优点如下:●通过这样的截断处理,使得惩罚项不会改变函数值符号方向,同时也使得0权重能够自然而然地出现;●算法中使用la

8、zyfashion,对那些value为0的feature不予更新,从而加快了训练速度。这种方式的缺点:●由于采用比较粗放的方式估计真实梯度,会出现权重更新的波动问题,如下图:3、StochasticGradientDescentwithCumulativePenalty这个方

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。