欢迎来到天天文库
浏览记录
ID:40163830
大小:1.19 MB
页数:32页
时间:2019-07-24
《第一章 统计学习方法概论》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、袁春清华大学深圳研究生院李航华为诺亚方舟实验室目录1.统计学习2.监督学习3.统计学习三要素4.模型评估与模型选择5.正则化与交叉验证6.泛化能力7.生成模型与判别模型8.分类问题9.标注问题10.回归问题一、统计学习统计学习的对象data:计算机及互联网上的各种数字、文字、图像、视频、音频数据以及它们的组合。数据的基本假设是同类数据具有一定的统计规律性。统计学习的目的用于对数据(特别是未知数据)进行预测和分析。统计学习统计学习的方法分类:SupervisedlearningUnsupervisedlearningSemi-supervisedl
2、earningReinforcementlearning监督学习:训练数据trainingdata模型model-------假设空间hypothesis评价准则evaluationcriterion--------策略strategy算法algorithm统计学习统计学习的研究:统计学习方法统计学习理论(统计学习方法的有效性和效率和基本理论)统计学习应用二、监督学习Instance,featurevector,featurespace输入实例x的特征向量:x(i)与xi不同,后者表示多个输入变量中的第i个训练集:输入变量和输出变量:
3、分类问题、回归问题、标注问题监督学习联合概率分布假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)P(X,Y)为分布函数或分布密度函数对于学习系统来说,联合概率分布是未知的,训练数据和测试数据被看作是依联合概率分布P(X,Y)独立同分布产生的。假设空间监督学习目的是学习一个由输入到输出的映射,称为模型模式的集合就是假设空间(hypothesisspace)概率模型:条件概率分布P(Y
4、X),决策函数:Y=f(X)监督学习问题的形式化三、统计学习三要素模型:决策函数的集合:参数空间条件概率的集合:参数空间统计学习三要素策略损失
5、函数:一次预测的好坏风险函数:平均意义下模型预测的好坏0-1损失函数0-1lossfunction平方损失函数quadraticlossfunction绝对损失函数absolutelossfunction统计学习三要素策略对数损失函数logarithmiclossfunction或对数似然损失函数loglikelihoodlossfunction损失函数的期望风险函数riskfunction期望损失expectedloss由P(x,y)可以直接求出P(x
6、y),但不知道,经验风险empiricalrisk,经验损失empiricalloss统计学
7、习三要素策略:经验风险最小化与结构风险最小化经验风险最小化最优模型当样本容量很小时,经验风险最小化学习的效果未必很好,会产生“过拟合over-fitting”结构风险最小化structureriskminimization,为防止过拟合提出的策略,等价于正则化(regularization),加入正则化项regularizer,或罚项penaltyterm:统计学习三要素求最优模型就是求解最优化问题:统计学习三要素算法:如果最优化问题有显式的解析式,算法比较简单但通常解析式不存在,就需要数值计算的方法四、模型评估与模型选择训练误差,训练数据集的平均
8、损失测试误差,测试数据集的平均损失损失函数是0-1损失时:测试数据集的准确率:模型评估与模型选择过拟合与模型选择假设给定训练数据集经验风险最小:模型评估与模型选择模型评估与模型选择五、正则化与交叉验证正则化一般形式:回归问题中:正则化与交叉验证交叉验证:训练集trainingset:用于训练模型验证集validationset:用于模型选择测试集testset:用于最终对学习方法的评估简单交叉验证S折交叉验证留一交叉验证六、泛化能力generalizationability泛化误差generalizationerror泛化误差上界
9、比较学习方法的泛化能力------比较泛化误差上界性质:样本容量增加,泛化误差趋于0假设空间容量越大,泛化误差越大二分类问题期望风险和经验风险泛化能力generalizationability经验风险最小化函数:泛化能力:定理:泛化误差上界,二分类问题,当假设空间是有限个函数的结合,对任意一个函数f,至少以概率1-δ,以下不等式成立:七、生成模型与判别模型监督学习的目的就是学习一个模型:决策函数:条件概率分布:生成方法Generativeapproach对应生成模型:generativemodel,朴素贝叶斯法和隐马尔科夫模型生成模型与判
此文档下载收益归作者所有