斯坦福大学机器学习梯度算法总结

ID：35620623

大小：620.09 KB

页数：21页

时间：2019-04-03

资源描述：

《斯坦福大学机器学习梯度算法总结》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、斯坦福大学机器学习梯度下降算法学习心得和相关概念介绍。1基础概念和记号线性代数对于线性方程组可以提供一种简便的表达和操作方式，例如对于如下的方程组：4x1-5x2=13-2x1+3x2=-9可以简单的表示成下面的方式：X也是一个矩阵，为(x1,x2)T，当然你可以看成一个列向量。1.1基本记号用A∈表示一个矩阵A，有m行，n列，并且每一个矩阵元素都是实数。用x∈,表示一个n维向量.通常是一个列向量.如果要表示一个行向量的话，通常是以列向量的转置（后面加T）来表示。1.2向量的内积和外积根据课内的定义，如果形式如xTy，或者yTx，则表示为内积，结果为一个实数，表示的是：，如果形式为xyT，则表

2、示的为外积:。1.3矩阵-向量的乘法给定一个矩阵A∈Rm×n，以及一个向量x∈Rn，他们乘积为一个向量y=Ax∈Rm。也即如下的表示：如果A为行表示的矩阵（即表示为），则y的表示为：相对的，如果A为列表示的矩阵，则y的表示为：即：y看成A的列的线性组合，每一列都乘以一个系数并相加，系数由x得到。同理，yT=xT*A表示为：yT是A的行的线性组合，每一行都乘以一个系数并相加，系数由x得到。1.4矩阵-矩阵的乘法同样有两种表示方式:第一种：A表示为行，B表示为列第二种，A表示为列，B表示为行：本质上是一样的，只是表示方式不同罢了。1.5矩阵的梯度运算（这是老师自定义的）定义函数f，是从mxn矩阵到

3、实数的一个映射，那么对于f在A上的梯度的定义如下：这里我的理解是，f（A）=关于A中的元素的表达式，是一个实数，然后所谓的对于A的梯度即是和A同样规模的矩阵，矩阵中的每一个元素就是f(A)针对原来的元素的求导。1.6其他概念因为篇幅原因，所以不在这里继续赘述，其他需要的概念还有单位矩阵、对角线矩阵、矩阵转置、对称矩阵（AT=A）、反对称矩阵（A=-AT）、矩阵的迹、向量的模、线性无关、矩阵的秩、满秩矩阵、矩阵的逆（当且仅当矩阵满秩时可逆）、正交矩阵、矩阵的列空间(值域)、行列式、特征向量与特征值……2用到的公式在课程中用到了许多公式，罗列一下。嗯，部分公式的证明很简单，部分难的证明我也不会，也

4、懒得去细想了，毕竟感觉上数学对于我来说更像是工具吧。转置相关：•(AT)T=A•(AB)T=BTAT•(A+B)T=AT+BT迹相关：•ForA∈Rn×n,trA=trAT.•ForA,B∈Rn×n,tr(A+B)=trA+trB.•ForA∈Rn×n,t∈R,tr(tA)=ttrA.•ForA,BsuchthatABissquare,trAB=trBA.•ForA,B,CsuchthatABCissquare,trABC=trBCA=trCAB。当乘法变多时也一样，就是每次从末尾取一个矩阵放到前面去，这样的矩阵乘法所得矩阵的迹是一致的。秩相关•ForA∈Rm×n,rank(A)≤min(m,

5、n).Ifrank(A)=min(m,n),则A称为满秩•ForA∈Rm×n,rank(A)=rank(AT).•ForA∈Rm×n,B∈Rn×p,rank(AB)≤min(rank(A),rank(B)).•ForA,B∈Rm×n,rank(A+B)≤rank(A)+rank(B).逆相关：•(A−1)−1=A•IfAx=b,左右都乘以A−1得到x=A−1b. •(AB)−1=B−1A−1•(A−1)T=(AT)−1.F通常表示为A−T.行列式相关：•ForA∈Rn×n,

6、A

7、=

8、AT

9、.•ForA,B∈Rn×n,

10、AB

11、=

12、A

13、

14、B

15、.•ForA∈Rn×n,

16、A

17、=0，表示矩阵A是奇异矩阵

18、，不可逆矩阵•ForA∈Rn×nandA可逆,

19、A

20、−1=1/

21、A

22、.梯度相关：•∇x(f(x)+g(x))=∇xf(x)+∇xg(x).•Fort∈R,∇x(tf(x))=t∇xf(x).•∇xbTx=b•∇xxTAx=2Ax(ifA对称)•∇2xxTAx=2A(ifA对称)•∇A

23、A

24、=(adj(A))T=

25、A

26、A−T.adj=adjoint3梯度下降算法和正规方程组实例应用例子用的是上节课的房价的例子，有一组数据，有房子面积和房子价格，输入格式举例：老师定义的变量如下：m:训练样本的数目x：输入的变量（输入的特征，在这个例子中为房子面积，后来又加了一个房子的卧室数目）y:输出变量（目标变

27、量，这个例子中就是房价）(x,y)：表示的是一个样本：表示的第i个样本，表示为。3.1监督学习概念所谓的监督学习即为告诉算法每个样本的正确答案，学习后的算法对新的输入也能输入正确的答案。监督指的是在训练样本答案的监督下，h即为监督学习函数。此例中我们假设输出目标变量是输入变量的线性组合，也就是说，我们的假设是存下如下的h（x）：Theta表示是特征前面的参数（也称作特征权重）。也就是经过h(x)之

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 21



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

斯坦福大学机器学习梯度算法总结

斯坦福大学机器学习梯度算法总结

相关文章

相关标签