欢迎来到天天文库
浏览记录
ID:32393093
大小:851.97 KB
页数:9页
时间:2019-02-04
《机器学习概念梯度下降》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、机器学习概念:梯度下降0.前言机器学习中大部分都是优化问题,大多数的优化问题都可以使用梯度下降/上升法处理,所以,搞清楚梯度算法就非常重要学习梯度,需要一定的数学知识:导数(Derivative)、偏导数(Partialderivative)和方向导数(Directionalderivative)。1.导数一张图看懂,导数与微分:导数的定义如下:反应的是函数在某一点处沿轴正方向的变化率函数在轴上沿着轴正方向的变化趋势,导数的绝对值越大,变化趋势越明显如果导数值为正的话,说明在点沿着轴正方向是趋于增加的如果导数值为负的话,说明在点沿着轴正方向是趋于减少的对于上式子符号意义的变化量的变化量
2、趋于0时,记作微元指函数的改变量是切线的改变量当时,与都是无穷小,是的主部,即::低阶无穷小2.偏导数偏导数的定义如下:可以看到,导数与偏导数的本质都是一样的,当自变量的变化量趋于0时,函数值的变化量与自变量变化量比值的极限。直观的说,偏导数也就是函数在某一点上沿坐标轴正方向的变化率。导数与偏导数的区别导数:指的是一元函数中,函数在某一点处沿轴正方向的变化率偏导数:指的是多元函数中,函数在某一点处沿某一坐标轴正方向的变化率3.方向导数方向导数的定义如下:其中:导数与偏导数均为沿坐标轴正方向讨论函数的变化率,而方向导数,顾名思义,讨论函数在任意方向的变化率。即:某一点在某一趋近方向上的导
3、数值通俗的解释是:我们不仅要知道函数在坐标轴正方向上的变化率(即偏导数),而且还要设法求得函数在其它特定方向上的变化率,而方向导数就是函数在其它特定方向上的变化率。4.梯度梯度的定义如下:梯度的存在,为了回答一个问题:函数在变量空间的某一点处,沿着哪一个方向有着最大的变化率梯度的文字定义如下:函数在某一点的梯度是这样一个向量,它的方向与取得最大方向导数的方向一致,它的模为方向导数的最大值。注意:梯度是一个向量,有方向有大小梯度的方向是最大方向导数的方向梯度的值的最大方向导数的值梯度即函数在某一点最大的方向导数,函数沿梯度方向,函数的变化率最大。5.梯度下降法既然在变量空间的某一点处,函
4、数沿梯度方向具有最大的变化率,那么在优化目标函数的时候,自然是沿着负梯度方向去减小函数值,来达到我们的优化目标如何沿着负梯度方向减小函数值呢?因为梯度是偏导数的集合,如下:由于梯度和偏导数均为向量,由向量的运算法则可知,我们在每个变量轴上减小对应的变量值即可,梯度下降算法可描述为:Repeat{}由这个可以很清楚的了解梯度下降的过程,类似人在高山上,如何快速下山1.寻找下降速度最快的方向2.向下走3.循环步骤1和步骤2,直到到达最小值(山底)在这里,我们还需要了解几个概念:5.1.步长(learningrate)(学习速度)步长决定了在梯度下降过程中,每一步沿梯度负方向前进的长度。5.
5、2.特征(feature)特征值的是样本输入部分,比如两个单特征样本则第一个样本的特征为,第一个样本的输出为5.3.假设函数(hypothesisfunction)在监督学习中,为了拟合输入样本,而使用假设函数,记作.比如对于单个特征的m个样本可以采用拟合函数如下:5.4.损失函数(lossfunction)为了评估模型拟合的好坏,通常损失函数来度量拟合的程度。损失函数极小化,意味着拟合程度最好,对应的模型参数即为最优参数。在线性回归中,损失函数通常为样本输出和假设函数的差取平方,比如对于m个样本采用线性回归,损失函数为:这里的是为了方便求导其中表示第个样本特征,表示第个样本对于的输出
6、,为假设函数。梯度下降算法与线性回归算法比较6.梯度下降算法详细梯度下降算法可以有代数法和矩阵法(也称向量法)相比于代数法,矩阵法更加简洁,这里就不介绍代数法了,感兴趣的读者可以阅读:[梯度下降(GradientDescent)小结]梯度下降算法的矩阵法这里需要一定的矩阵求导知识首先我们需要确定优化模型的假设函数和损失函数,对于线性回归来说:假设函数:矩阵表达方式为:其中:是大小为x的矩阵。m代表样本个数,n代表样本的特征数为x1的向量、为x1的向量损失函数:其中:是为了方便求导,是样本的输出向量,维度为x1算法过程:1.确定当前位置的损失函数的梯度,对于向量,其梯度表达式如下:2.用
7、步长乘以损失函数的梯度,得到当前位置下降的距离这里设置为步长3.确定向量里的每个值,梯度下降的距离都小于,如果梯度下降的距离小于则算法终止,当前向量即为最终结果。否则进行下一步4.更新向量,更新表达式如下:更新结束后,将表达式传回步骤1其中,损失函数对于向量的偏导数计算如下:步骤4中向量的更新表达式如下:7.梯度下降法大家族(BGD,SGD,MBGD)7.1.批量梯度下降法(BatchGradientDescent)批量梯度下降法,是梯度下降法
此文档下载收益归作者所有