欢迎来到天天文库
浏览记录
ID:26956887
大小:1.87 MB
页数:45页
时间:2018-11-30
《《统计学习基础》ppt课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第三部分:统计学习基础有监督学习概述[ESL]Chp2回归分析[ESL]Chp3[Wasserman]Chp13模型评估与选择[ESL]Chp7/8[ESL]TrevorHastie,RobertTibshirani,JeromeFriedman著“TheElementsofStatisticalLeanring”,范明,柴玉梅,昝红英译《统计学习基础—数据挖掘、推理与预测》,电子工业出版社,20041例:一个回归例子例:然后对每个数据加上高斯噪声,目标:通过最小化残差的平方和(RSS)拟合f2
2、例:一个回归例子(续)1阶多项式拟合3阶多项式拟合拟合得到的曲线样本数据点3例:一个回归例子(续)10阶多项式拟合训练正确率和测试误差4一些术语有监督学习:给定包含输入特征和对应响应的训练样本,学习Y与X之间的关系对新的输入x,预测其响应y如果输出值Y的类型是连续值:回归根据公司的业绩和经济学数据,预测今后6个月的股票价格根据患者血液的红外光谱,估计糖尿病患者血液中葡萄糖的含量如果输出值Y为离散值:分类根据数字图像,识别手写的邮政编码数据根据邮件中单词和字符的比例,识别email是否为垃圾邮件5
3、目标根据训练数据,正确预测未见过的测试样本理解哪些输入影响输出怎样评价预测的质量6哲学思想理解各种技术背后的基本思想,以知道如何和在什么情况采用这些技术先理解比较简单的方法,以便掌握更复杂的技术正确评价方法的性能很重要,以便知道该方法在什么情况下工作得好,在什么情况下工作得不好[简单的方法通常和那些很华丽时髦的方法工作得一样好!]7一个例子IR2上从未知分布产生的200点,其中类别G={绿,红}各100个点。我们能建立一个规则,预测将来的点的颜色的规则吗?8比较两种最简单的预测方法线性回归k近邻
4、法(k-nearestneighbors,knn)9线性回归输入p维向量,扩展成p+1维:向量均为列向量类别G=绿时,Y=0;否则Y=1。Y用X的线性函数来建模最简单、也是最常用的模型10线性回归利用最小二乘法,通过最小化残差的平方和(RSS)得到如果是非奇异的,则唯一解为则学习得到f的估计为11线性回归对将来的点的预测为在训练集上错误率为14%比随机猜测强的多但还是有很多错误决策边界是线性的采用更灵活的模型能得到更好的结果?12knn观察其邻居,采取投票的方式其中为x0的邻域,由训练样本中最邻
5、近x0的k个点xi定义(k-近邻)如果在观测x邻域中某一类明显占优势,则观测样本也更可能属于该类。分类规则为邻域成员的多数票1315-近邻分类:训练集上的错误率为12%14过拟合knn比线性回归表现稍好但我们应警惕过拟合(overfitting)问题在训练集上模型工作得很好(有时甚至100%正确),但忘记了训练集是一个随机过程的输出,从而训练好的模型可能在其它情况(另外的测试集)工作欠佳1nn?151-近邻分类。没有样本被误分,判决边界更加不规则16knn中k的选择?在测试集上,哪个模型表现最佳
6、?k的选择:偏差—方差折中较小的k:预测更灵活,但太灵活可能会导致过拟合,从而估计方差更大较大的k:预测更稳定,但可能不够灵活,不灵活通常与偏差/不准确有关方法预测误差训练集测试集线性回归0.140.185Knn(15)0.120.175Knn(1)0.00.18517在前面200个点上训练,在10,000个数据上测试的结果当k较小时,训练误差较小,但测试误差一般较大当k较大时,训练误差较大,但测试误差一般较小18统计决策理论令表示一个实值的随机输入向量,表示实值的随机输出变量损失函数:对回归问
7、题,常用平方误差损失风险函数(损失函数的期望):对每个输入x,目标是使风险函数最小,得到:为条件期望,亦称回归函数。19统计决策理论对分类问题,常用损失函数为0-1损失函数风险函数为对每个输入x,使风险函数最小结果为最大后验估计(MAP),亦称贝叶斯分类器20贝叶斯最优分类器的结果21贝叶斯分类器为什么不用贝叶斯分类器?因为通常我们不知道在上例中我们是已知数据产生的过程每个类的概率密度为10个高斯的均匀混合对类别绿,k=1;对类别红,k=2对类别绿,10个均值从正态分布产生:对类别红,10个均值
8、从正态分布产生:方差22贝叶斯分类器knn是贝叶斯分类器的直观实现不知道,在x附近的小邻域类别为g的数目用频数近似概率在点上取条件放宽为在目标点的邻域内取条件如果取则贝叶斯分类器与回归函数之间的关系为:23knnvs.线性回归当且时,knn的估计即该估计是一致的。但通常没有那么多样本线性回归假设的结构是线性的:并最小化训练样本上的平均损失:随着样本数目的增多,收敛于但模型受到线性假设的限制24knnvs.线性回归通过用样本均值来逼近数学期望,knn和线性回归最终都得到近似条件期望。但二者对模型的
此文档下载收益归作者所有