机器学习中用到的数值分析.doc

ID：48203703

大小：1.01 MB

页数：17页

时间：2019-11-15

资源描述：

《机器学习中用到的数值分析.doc》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、第四章背景知识conditionnumber从优化或者数值计算的角度来说，L2范数有助于处理conditionnumber不好的情况下矩阵求逆很困难的问题。如果方阵A是奇异的，那么A的conditionnumber就是正无穷大了。实际上，每一个可逆方阵都存在一个conditionnumber。对conditionnumber来个一句话总结：conditionnumber是一个矩阵（或者它所描述的线性系统）的稳定性或者敏感度的度量，如果一个矩阵的conditionnumber在1附近，那么它就是well-conditioned的，如果远大于1，那么它就是ill

2、-conditioned的，如果一个系统是ill-conditioned的，它的输出结果就不要太相信了。应用如果当我们的样本X的数目比每个样本的维度还要小的时候，矩阵XTX将会不是满秩的，也就是XTX会变得不可逆，所以w^就没办法直接计算出来了。如果加上L2规则项，就变成了下面这种情况，就可以直接求逆了：conditionnumber一般在矩阵里被定义做最大singularvalue和最小singularvalue的比值。一般说来，如果一个矩阵的conditionnumber大于1000，数值计算inv(A)或者解线性方程AX=Y可能会遇到严重的舍入问题，这

3、样的问题通常被称为ill-conditioned。最简单的解决方法是把A的diagonalentries都加上一个微小量delta以后再计算——这样做虽然会引入误差，但是可以改善ill-condition。梯度设体系中某处的物理参数(如温度、速度、浓度等)为w，在与其垂直距离的dy处该参数为w+dw，则称为该物理参数的梯度，也即该物理参数的变化率。如果参数为速度、浓度、温度或空间，则分别称为速度梯度、浓度梯度、温度梯度或空间梯度。其中温度梯度在直角坐标系下的表达式如右图。在向量微积分中，标量场的梯度是一个向量场。标量场中某一点上的梯度指向标量场增长最

4、快的方向，梯度的长度是这个最大的变化率。更严格的说，从欧氏空间Rn到R的函数的梯度是在Rn某一点最佳的线性近似。在这个意义上，梯度是雅戈比矩阵的一个特殊情况。在单变量的实值函数的情况，梯度只是导数，或者，对于一个线性函数，也就是线的斜率。梯度一词有时用于斜度，也就是一个曲面沿着给定方向的倾斜程度。可以通过取向量梯度和所研究的方向的点积来得到斜度。梯度的数值有时也被称为梯度。在二元函数的情形，设函数z=f(x,y)在平面区域D内具有一阶连续偏导数，则对于每一点P(x,y)∈D，都可以定出一个向量(δf/x)*i+(δf/y)*j这向量称为函数z=f(x,y)在

5、点P(x,y)的梯度，记作gradf(x,y)类似的对三元函数也可以定义一个：(δf/x)*i+(δf/y)*j+(δf/z)*k记为grad[f(x,y,z)]梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。方向导数（directionalderivative）的通俗解释是：我们不仅要知道函数在坐标轴方向上的变化率方向导数（即偏导数），而且还要设法求得函数在其他特定方向上的变化率。而方向导数就是函数在其他特定方向上的变化率。定义方向导数的精确定义

6、（以三元函数为例）：设三元函数f在点P0（x0，y0，z0）的某邻域内有定义，l为从点P0出发的射线，P（x，y，z）为l上且含于邻域内的任一点，以ρ（rou）表示P和P0两点间的距离。若极限lim（(f(P)-f(P0))/ρ）=lim（△lf/ρ）（当ρ→0时）存在，则称此极限为函数f在点P0沿方向l的方向导数。雅可比矩阵二阶导数的集合意义：（1）斜线斜率变化的速度（2）函数的凹凸性.二阶导数是比较理论的、比较抽象的一个量,它不像一阶导数那样有明显的几何意义,因为它表示的是一阶导数的变化率.在图形上,它主要表现函数的凹凸性,直观的说,函数是向上突起的,还

7、是向下突起的.应用：如果一个函数f(x)在某个区间I上有f''(x)（即二阶导数）>0恒成立,那么对于区间I上的任意x,y,总有：f(x)+f(y)≥2f[(x+y)/2],如果总有f''(x)0恒成立,那么在区间I上f(x)的图象上的任意两点连出的一条线段,这两点之间的函数图象都在该线段的下方,反之在该线段的上方.机器学习中梯度下降法和牛顿法的比较在机器学习的优化问题中，梯度下降法和牛顿法是常用的两种凸函数求极值的方法，他们都是为了求得目标函数的近似解。在逻辑斯蒂回归模型的参数求解中，一般用改良的梯度下降法，也可以用牛顿法。由于两种方法有些相似，我特地拿来

8、简单地对比一下。下面的内容需要读者之前熟悉两种算法。

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 17



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

机器学习中用到的数值分析.doc

机器学习中用到的数值分析.doc

相关文章

相关标签