重采样方法与机器学习综述

ID：15668207

大小：824.50 KB

页数：27页

时间：2018-08-04

资源描述：

《重采样方法与机器学习综述》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、《计算机学报》2009年第5期重采样方法与机器学习综述毕华梁洪力王珏（中国科学院自动化研究所复杂系统与智能科学重点实验室北京100190）摘要Boosting算法试图用弱学习器的线性组合逼近复杂的自然模型，以其优秀的可解释性和预测能力，得到计算机界的高度关注。但只是将Boosting看作是一种特定损失下的优化问题，其统计学本质未曾得到充分的关注。本文追根溯源，提出从统计学看待boosting方法：在统计学框架下，Boosting算法仅仅是重采样方法的一个有趣的特例。本文希望改变计算机科学家只重视算法性能忽略数据性质的现状，以期找到更适合解

2、决“高维海量不可控数据”问题的方法。关键词重采样；自助法；Boosting；机器学习中图法分类号TP18ResamplingMethodsandMachineLearning:ASurveyBIHuaLIANGHong-LiWANGJue(KeyLaboratoryofComplexSystemsandIntelligenceScience,InstituteofAutomation，ChineseAcademyofSciences，Beijing100190)AbstractInboostingalgorithmcomplexnatur

3、almodelisapproximatedbythelinearcombinationofweaklearners.Duetoitsexcellentinterpretabilityandpredictionpower,boostinghasbecomeanintensivefocusamongcomputersciencefield.However,itisonlyconsideredasanoptimizingprocedurewithaspecificlossfunction,whosenatureinstatisticshasne

4、verobtainedsufficientattention.Inessence,astatisticalperspectiveofboostingalgorithmisbroughtoutinthispaper,i.e.,aninterestingspecialcaseofresamplingmethods.Wehopethecurrentsituationofexcessiveattentionbeingpaidtotheperformanceofalgorithmwhilethecharacteristicofdatabeingig

5、noredwillbechanged,suchthatthetasksof“highdimensionalandlargevolumedatageneratedinanuncontrolledmanner”couldbetackledmoreappropriately.Keywordsresampling;bootstrap;Boosting；machinelearning1.引言1984年，Valiant[1]在他的论文中提出机器学习的另类理念。他认为，学习模型无需绝对精确，只需概率近似正确(ProbablyApproximatelyC

6、orrect，简写为PAC)即可。由此，他建立了PAC的理论基础。这个理论可以简单描述如下：令是自然模型，是从样本集学习后建立的模型，以概率成立。这里的关键是，“概率成立”，而不是以概率1成立。这个理论对Vapnik建立有限样本统计机器学习理论有重要的意义。Kearns和Valiant27《计算机学报》2009年第5期[2,3](1988,1994)在PAC的基础上，提出弱可学习的理论。他这样描述一个概念是弱可学习：与定义如上，成立的概率大于。这意味着，一个概念如果是弱可学习的，那么只要求一个弱可学习算法产生的模型的精度高于50%，也就是

7、比随机猜想稍好。同时他将满足PAC原始定义的概念可学习称为强可学习。进而，他问了如下一个问题，强可学习在什么条件下与弱可学习等价。1990年，Schapire[4]回答了这个问题。他使用构造的方法证明：一个概念弱可学习的充要条件是这个概念强可学习。这是一个有些“不可思议”的结论。正是由于这个定理，开始了至今还在人们关注视野中的一类机器学习的研究，机器学习研究者将这类学习方式称为集群学习(EnsembleLearning)[5]。从此以后，统计学家开始介入机器学习的研究。这是本文讨论的重点，我们将在本文以后部分详细说明统计学家对这个问题的描

8、述。以后Freund和Schapire提出了Adaboost算法[6]，由于这个算法如此简单且灵活，立即受到计算机科学技术界的推崇。特别是，人们在使用这个算法时，发现很少出现“过学习(Over

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 27



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

重采样方法与机器学习综述

重采样方法与机器学习综述

相关文章

相关标签