资源描述:
《最新机器学习优化课件PPT课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、机器学习优化课件内容介绍你见过的优化?无约束优化梯度下降法牛顿法约束优化二次规划非线性规划Example目标函数问题来了,我们怎么求解呢?冰山一角梯度下降法、牛顿法梯度下降法梯度下降法10J(0,1)梯度下降法01J(0,1)梯度下降法梯度下降法梯度下降法小试牛刀-编程实现房屋价格预测问题:请尝试不同的步长设置最佳‘步长’…最速下降法最速下降法最速下降法最速下降法最速下降法DoyourememberHessianmatrix?原来如此简单~~~最佳步长计算-编程试试看吧!!计算最佳
2、步长计算-试试看clearsymsx1x2;%定义符号变量fx=2*x1^2+x2^2;%定义符号函数X0=[1,1];%初值g=jacobian(fx,[x1,x2]);%求符号函数的梯度H=jacobian(g,[x1,x2]);%求符号函数的Hession矩阵x1=X0(1,1);x2=X0(1,2);%赋初值g0=eval(g);H0=eval(H);%求符号函数在x1=1、x2=1梯度、Hession矩阵k=0;fprintf('')whilenorm(g0)>eps%停机判断条件l
3、amda=g0*g0‘/(g0*H0*g0’);%求lamdafprintf('k=%2d,lamda=%19.16f,x1=%19.16f,x2=%19.16f,fx=%19.16f,norm(p)=%19.16f',k,lamda,x1,x2,eval(fx),norm(g0))X0=X0-lamda*g0;x1=X0(1,1);x2=X0(1,2);g0=eval(g);H0=eval(H);k=k+1;end参考例子:Matlab代码实现SlideNo.28你发现了吗?这个算法的优缺点
4、?梯度下降-远不止如此(1)批量梯度下降速度比较慢,受内存的限制,不能再运行中加入新的样本进行运算(2)随机梯度下降随机梯度下降是通过每个样本来迭代更新一次(3)小批量梯度下降将批量梯度下降法中m替换成mini-batch,在此将mini-bach的size远小于m的大小,循环m/b次直到收敛或是循环次数达到并没有结束…前沿算法梯度下降的各种变体1.Momentum法2.Nesterov加速梯度法3.Adagrad法4.Adadelta法5.RMSprop法6.适应性动量估计法(Adam)其他手段
5、:1.对SGD进行平行或分布式运算2.重排和递进学习3.批量标准化4.梯度噪声….休息一下~牛顿法“牛顿法”与牛顿的关系??牛顿法最初由艾萨克·牛顿在《流数法》(MethodofFluxions,1671年完成,在牛顿去世后的1736年公开发表)中提出。牛顿法Doyouremember泰勒展开?DoyourememberHessianmatrix?简单的计算步骤~再现房屋价格预测问题这个算法的特点?牛顿法牛顿法优点:牛顿法具有二阶收敛速度。对二次正定函数,仅需一步迭代即可达到最优解,具有二次终结性
6、。牛顿法缺点:(1)牛顿法是局部收敛的,即初始点选择不当,可能会导致不收敛;(2)牛顿法不是下降算法,当二阶Hesse阵非正定时,不能保证是下降方向;(3)二阶Hesse阵必须可逆,否则算法将无法进行下去;(4)对函数分析性质要求苛刻,计算量大,仅适合小规模优化问题。改进算法1.阻尼牛顿法:增加沿牛顿方向的一维搜索2.Goldstein-Price方法:将牛顿方法与最速下降法结合3.其他改进总结作业场景描述:一组登山运动员,为到达山谷最低处寻找水源,通过GPS定位当前位置的坐标为(0,1),海拔为
7、2km。专家分析,此山走势可用函数z=(x-1)^4+y^2近似表达,请帮助登上运动员确定行走路线,快速找到水源。考察:分别运用最速下降法与牛顿法,比较收敛性。牛顿法继续努力!!二次规划最简单的约束非线性规划问题.二次规划二次规划:带有二次目标函数和线性约束的最优化问题.二次规划SlideNo.52Matlab中求解二次规划二次规划二次规划定义如果目标函数或约束条件中至少有一个是非线性函数,则最优化问题就叫做非线性规划问题.一般形式:(1)其中,是定义在Rn上的实值函数()nTnRxxxXÎ=,,
8、,21L()()ïîïíì===³.,...,2,10m;1,2,...,0..ljXhiXgtsji非线性规划的基本概念SlideNo.57罚函数法罚函数法基本思想是通过构造罚函数把约束问题转化为一系列无约束最优化问题,进而用无约束最优化方法去求解.这类方法称为序列无约束最小化方法.简称为SUMT法.其一为SUMT外点法(惩罚函数法)其二为SUMT内点法(障碍函数法)惩罚函数法PK障碍函数法障碍函数法核心:在可行域X的内部与边界面较远的点上,障碍函数与原目标函数应尽可能的接近,而