随机梯度下降(Stochastic Gradient Descent ).pdf

ID：55075887

大小：374.07 KB

页数：13页

时间：2020-05-09

随机梯度下降(Stochastic Gradient Descent ).pdf_第1页

随机梯度下降(Stochastic Gradient Descent ).pdf_第2页

随机梯度下降(Stochastic Gradient Descent ).pdf_第3页

随机梯度下降(Stochastic Gradient Descent ).pdf_第4页

随机梯度下降(Stochastic Gradient Descent ).pdf_第5页

资源描述：

《随机梯度下降(Stochastic Gradient Descent ).pdf》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、LeoZhangAsimplemanwithmyownideal导航博客园首页联系StochasticGradientDescent订阅管理一、从MultinomialLogistic模型说起统计信息1、MultinomialLogistic随笔-30文章-0令为维输入向量;评论-367Trackbacks-0为输出label;(一共k类);NEWS为模型参数向量；MultinomialLogistic模型是指下面这种形式:其中：例如：时，输出label为0和1，有：2、MaximumLikelihoodEstimateand

2、MaximumaPosterioriEstimate(1)、MaximumLikelihoodEstimate假设有数据集，为了训练一个模型通常使用极大似然法来确定模型参数：(2)、MaximumaPosterioriEstimate假设模型参数的分布服从，那么在给定数据集上我们想要找到的最佳参数满足以下关系：利用上面的式子可以定义求解该问题的损失函数：个人认为，从统计学习的角度来说，上面式子第一部分描述了偏差（经验风险），而第二部分描述了方差（置信风险）。3、L1-regularizedmodelandL2-regulari

3、zedmodel对模型参数的分布，可以有下面的假设:(1)、GaussianPrior(2)、LaplacePrior当时，叫做L2-regularized：当时，叫做L1-regularized：在这里常数是一个用来调节偏差与方差的调节因子：●很小时，强调likelihood，此时会造成Overfit；●很大时，强调regularization，此时会造成Underfit。在相同的条件下，GaussianPrior和LaplacePrior的比较如下：图1-红色为LaplacePrior，黑色为GaussianPrior4、

4、L1-regularizedmodel？orL2-regularizedmodel？目前主流的方法都选择用L1-regularized，包括各种L-BFGS（如：OWL-QN）和各种SGD方法，主要原因如下：●我们要优化的目标是：从图1可以看出，要想让取得最大值,权重向量需要靠近其mean值(也就是0),显然服从LaplacePrior的权重向量下降速度要快于服从GaussianPrior的;●以时的梯度下降算法为例，权重的更新方式如下：○GaussianPrior:○LaplacePrior:当时，；当时，。当与同号时表明没

5、有误分，权重的绝对值会以一个比较小的速度更新，而当与异号时误分发生，权重的绝对值会以一个比较大的速度更新。●将权重更新看成两个阶段：likelihood+regularization，暂时不考虑likelihood，那么k次迭代后有下面关系：○GaussianPrior:○LaplacePrior:当时，；当时，。当，虽然前者的极限值为0，但是不会精确为0，而后者每次更新一个常数，这就意味着理论上后者可能会精确的将权重更新为0。●L1-regularized能够获得稀疏的feature，因此模型训练过程同时在进行feature

6、selection。●如果输入向量是稀疏的，那么LaplacePrior能保证其梯度也是稀疏的。二、L1-StochasticGradientDescent1、NaiveStochasticGradientDescent随机梯度下降算法的原理是用随机选取的TrainingSet的子集来估计目标函数的梯度值，极端情况是选取的子集只包含一条Sample，下面就以这种情况为例，其权重更新方式为：这种更新方式的缺点如下：●每次迭代更新都需要对每个feature进行L1惩罚，包括那些value为0的没有用到的feature；●实际当中在

7、迭代时能正好把权重值更新为0的概率很小，这就意味着很多feature依然会非0。2、LazyStochasticGradientDescent针对以上问题，Carpenter在其论文《LazySparseStochasticGradientDescentforRegularizedMutlinomialLogisticRegression》(2008)一文中进行了有效的改进，权重更新采用以下方式：这种更新方式的优点如下：●通过这样的截断处理，使得惩罚项不会改变函数值符号方向，同时也使得0权重能够自然而然地出现；●算法中使用la

8、zyfashion，对那些value为0的feature不予更新，从而加快了训练速度。这种方式的缺点：●由于采用比较粗放的方式估计真实梯度，会出现权重更新的波动问题，如下图：3、StochasticGradientDescentwithCumulativePenalty这个方

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 13



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

随机梯度下降(Stochastic Gradient Descent ).pdf

随机梯度下降(Stochastic Gradient Descent ).pdf

相关文章

相关标签