机器学习中用到的数值分析.doc

机器学习中用到的数值分析.doc

ID:48203703

大小:1.01 MB

页数:17页

时间:2019-11-15

机器学习中用到的数值分析.doc_第1页
机器学习中用到的数值分析.doc_第2页
机器学习中用到的数值分析.doc_第3页
机器学习中用到的数值分析.doc_第4页
机器学习中用到的数值分析.doc_第5页
资源描述:

《机器学习中用到的数值分析.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第四章背景知识conditionnumber从优化或者数值计算的角度来说,L2范数有助于处理conditionnumber不好的情况下矩阵求逆很困难的问题。如果方阵A是奇异的,那么A的conditionnumber就是正无穷大了。实际上,每一个可逆方阵都存在一个conditionnumber。对conditionnumber来个一句话总结:conditionnumber是一个矩阵(或者它所描述的线性系统)的稳定性或者敏感度的度量,如果一个矩阵的conditionnumber在1附近,那么它就是well-conditioned的,如果远大于1,那么它就是ill

2、-conditioned的,如果一个系统是ill-conditioned的,它的输出结果就不要太相信了。应用如果当我们的样本X的数目比每个样本的维度还要小的时候,矩阵XTX将会不是满秩的,也就是XTX会变得不可逆,所以w^就没办法直接计算出来了。如果加上L2规则项,就变成了下面这种情况,就可以直接求逆了:conditionnumber一般在矩阵里被定义做最大singularvalue和最小singularvalue的比值。一般说来,如果一个矩阵的conditionnumber大于1000,数值计算inv(A)或者解线性方程AX=Y可能会遇到严重的舍入问题,这

3、样的问题通常被称为ill-conditioned。   最简单的解决方法是把A的diagonalentries都加上一个微小量delta以后再计算——这样做虽然会引入误差,但是可以改善ill-condition。 梯度设体系中某处的物理参数(如温度、速度、浓度等)为w,在与其垂直距离的dy处该参数为w+dw,则称为该物理参数的梯度,也即该物理参数的变化率。如果参数为速度、浓度、温度或空间,则分别称为速度梯度、浓度梯度、温度梯度或空间梯度。其中温度梯度在直角坐标系下的表达式如右图。在向量微积分中,标量场的梯度是一个向量场。标量场中某一点上的梯度指向标量场增长最

4、快的方向,梯度的长度是这个最大的变化率。更严格的说,从欧氏空间Rn到R的函数的梯度是在Rn某一点最佳的线性近似。在这个意义上,梯度是雅戈比矩阵的一个特殊情况。在单变量的实值函数的情况,梯度只是导数,或者,对于一个线性函数,也就是线的斜率。梯度一词有时用于斜度,也就是一个曲面沿着给定方向的倾斜程度。可以通过取向量梯度和所研究的方向的点积来得到斜度。梯度的数值有时也被称为梯度。在二元函数的情形,设函数z=f(x,y)在平面区域D内具有一阶连续偏导数,则对于每一点P(x,y)∈D,都可以定出一个向量(δf/x)*i+(δf/y)*j这向量称为函数z=f(x,y)在

5、点P(x,y)的梯度,记作gradf(x,y)类似的对三元函数也可以定义一个:(δf/x)*i+(δf/y)*j+(δf/z)*k记为grad[f(x,y,z)]梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。方向导数(directionalderivative)的通俗解释是:我们不仅要知道函数在坐标轴方向上的变化率方向导数(即偏导数),而且还要设法求得函数在其他特定方向上的变化率。而方向导数就是函数在其他特定方向上的变化率。定义方向导数的精确定义

6、(以三元函数为例):设三元函数f在点P0(x0,y0,z0)的某邻域内有定义,l为从点P0出发的射线,P(x,y,z)为l上且含于邻域内的任一点,以ρ(rou)表示P和P0两点间的距离。若极限lim((f(P)-f(P0))/ρ)=lim(△lf/ρ)(当ρ→0时)存在,则称此极限为函数f在点P0沿方向l的方向导数。雅可比矩阵二阶导数的集合意义:(1)斜线斜率变化的速度(2)函数的凹凸性.二阶导数是比较理论的、比较抽象的一个量,它不像一阶导数那样有明显的几何意义,因为它表示的是一阶导数的变化率.在图形上,它主要表现函数的凹凸性,直观的说,函数是向上突起的,还

7、是向下突起的.应用:如果一个函数f(x)在某个区间I上有f''(x)(即二阶导数)>0恒成立,那么对于区间I上的任意x,y,总有:f(x)+f(y)≥2f[(x+y)/2],如果总有f''(x)0恒成立,那么在区间I上f(x)的图象上的任意两点连出的一条线段,这两点之间的函数图象都在该线段的下方,反之在该线段的上方.机器学习中梯度下降法和牛顿法的比较在机器学习的优化问题中,梯度下降法和牛顿法是常用的两种凸函数求极值的方法,他们都是为了求得目标函数的近似解。在逻辑斯蒂回归模型的参数求解中,一般用改良的梯度下降法,也可以用牛顿法。由于两种方法有些相似,我特地拿来

8、简单地对比一下。下面的内容需要读者之前熟悉两种算法。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。