资源描述:
《统计学习理论的原理与应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、统计学习理论的原理与应用叶晨洲收稿日期:2002-06-10;修回日期:2002-09-10基金资助:国家自然科学基金与宝钢基金联合资助批准号:50174038作者简介:叶晨洲,1974年生,自动化专业,导师:杨杰,陈念贻,杨杰,姚莉秀,陈念贻(上海交通大学图象处理及模式识别研究所,上海,200030)摘要:经验风险与实际风险间的不一致是一个长期困扰机器学习(各种分类或拟合问题)的难题。统计学习理论提供了对这一问题的部分解决方法。本文从理论及现实两方面介绍经验风险与实际风险间的不一致现象,定义了算法的泛化能力,简单介绍了统计学习理论各组成部分的主要结论,并总结
2、了这一理论的应用方向和存在的问题。关键词:统计学习理论机器学习泛化能力分类号:TP18OutlineandApplicationofStatisticalLearningTheoryYeChenzhou,YangJie,YaoLixiu,ChenNianyi(InstituteofImageProcessingandPatternRecognition,ShanghaiJiaoTongUniversity,Shanghai,China,200030)Abstract:Thediscrepancybetweentheempiricalriskandthetrue
3、riskisalong-termtroublepuzzlingtheresearchersinthefieldofmachinelearning.Thestatisticallearningtheory(SLT)triestosolvethisproblembothintheoryandinpractice.Startedwithinstancesdisplayingsuchkindofdiscrepancy,thispaperdefinedtheconceptofgeneralizationanddescribedtheframeworkandthemain
4、resultsofSLTinbrief.ThedirectionsandproblemsexistingintheapplicationofSLTwerealsosummarized.Keywords:StatisticalLearningTheory,MachineLearning,Generalization1机器学习我们将分类算法或拟合算法(例如,人工神经元网络,决策树,线性回归算法)统称为机器学习算法。可以采用图1所示的模型描述它们的学习过程(或训练过程)(1)。给定机器学习算法A以及相应的控制数,A可以通过修改可调参数构造出不同的分类函数(对于分类问
5、题)或拟合函数(对于拟合问题):,它们组成一个有限或无限的集合,称它为A的假设函数集合。对于特定的一个训练样本序列,算法A从中给出一个它“认为”与该序列最“匹配”的分类函数或拟合函数,作为它向该训练样本序列学习后获得的结果。以人工神经网络中的多层感知器网络(MLP)为例,设定它的隐层数、每个隐层的隐节点数、每个节点的作用函数等控制参数,那么MLP可以通过修改各节点间的连接权重构造出无穷多种用于分类或拟合的函数。对于特定的一个训练样本序列,MLP按照最小化平方误差和的原则从这些“候选”的分类或拟合函数中选择一个“最佳”函数作为此次训练的结果。(“匹配”与“最佳”
6、的程度与不同的评价准则有关,在MLP中“最佳”可能只是在局部上成立,而MLP训练过程中究竟哪些是“候选”的分类或拟合函数至今仍无确定说法)控制参数8机器学习算法:它可以构造出以下的分类函数或拟合函数:与训练样本最匹配的分类函数或拟合函数:训练样本(i=1,2,…,n)图1.机器学习的模型Figure1.Modelofmachinelearning1.1经验风险与实际风险的不一致对于分类问题,训练样本集由n个样本(i=1,2,…,n)组成,其中,,采用对分类算法进行训练,获得分类方程,定义其上的0-1损失函数为:(1)类似地,对于拟合问题,训练样本集由n个样本(
7、i=1,2,…,n)组成,其中,,采用对拟合算法进行训练,获得拟合方程,定义其上的平方损失函数为:(2)定义1:无论是分类还是拟合,算法在上的经验风险(训练错误率或训练偏差)可表示为[4]:(3)定义2:算法在上的实际风险(实际错误率或实际偏差)为:(4)其中是的概率分布函数,对于分类问题,对于拟合问题。人们通常认为随着训练样本数的增加,算法的经验风险不断地接近于它的实际风险,即:(5)但是以下的极端例子显然反驳了这一观点。例子1用于分类问题的“查表”的算法:对一个涉及两种类别和的分类问题,算法在训练过程中将所有出现过的类样本(以无限的精度)记录在表格中;分类
8、时根据未知类别样本是否出现在该表格中判