欢迎来到天天文库
浏览记录
ID:61032577
大小:1.71 MB
页数:44页
时间:2021-01-20
《数据挖据技术集成学习方法(ensemblelearnig).ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、数据挖据技术集成学习方法(ensemblelearnig)王磊(副教授)2第六章:集成学习方法基本概念baggingboosting随机森林选择性集成方法2在机器学习中,直接建立一个高性能的分类器是很困难的。但是,如果能找到一系列性能较差的分类器(弱分类器),并把它们集成起来的话,也许就能得到更好的分类器。日常生活中,“三个臭皮匠,胜过诸葛亮”,便是体现了这种思想。集成学习的基本概念ClassifierensembleΣαihi(x)hn(x)h2(x)h1(x)InputvectorClassifier
2、1Classifier2……ClassifierNCombineClassifiersOutputx集成学习:图示我们一般选定加权平均的方法来构造集成学习的最终学习器。但是里面的每一个弱分类器(i)怎样构造呢?有一些研究,是针对每个学习器都不同构的情况,比如识别一个人,一个学习器考虑脸,另一个考虑步态,另一个考虑指纹。这种研究通常称为InformationFusion,不在我们今天讨论的范畴。狭义的集成学习(ensemblelearning),是用同样类型的学习算法来构造不同的弱学习器的方法。集成学习:如
3、何构造?办法就是改变训练集。通常的学习算法,根据训练集的不同,会给出不同的学习器。这时就可以通过改变训练集来构造不同的学习器。然后再把它们集成起来。集成学习:如何构造?在原来的训练集上随机采样,可以得到新的训练集。【随机采样】集成学习(EnsembleLearning)是一种机器学习方法,它使用多个(通常是同质的)学习器来解决同一个问题问题…...…...问题集成学习中使用的多个学习器称为个体学习器当个体学习器均为决策树时,称为“决策树集成”当个体学习器均为神经网络时,称为“神经网络集成”…………集成学习
4、的定义由于集成学习技术可以有效地提高学习系统的泛化能力,因此它成为国际机器学习界的研究热点,并被国际权威T.G.Dietterich称为当前机器学习四大研究方向之首[T.G.Dietterich,AIMag97]问题:对20维超立方体空间中的区域分类左图中纵轴为错误率从上到下的四条线分别表示:平均神经网络错误率最好神经网络错误率两种神经网络集成的错误率令人惊奇的是,集成的错误率比最好的个体还低[L.K.Hansen&P.Salamon,TPAMI90]【集成学习的重要性】集成学习技术已经在行星探测、地震波
5、分析、Web信息过滤、生物特征识别、计算机辅助医疗诊断等众多领域得到了广泛的应用只要能用到机器学习的地方,就能用到集成学习【集成学习的应用】期望结果个体1(精度33.3%)个体2(精度33.3%)个体3(精度33.3%)集成(精度33.3%)投票个体必须有差异期望结果个体1(精度33.3%)个体2(精度33.3%)个体3(精度33.3%)集成(精度0%)投票个体精度不能太低个体学习器越精确、差异越大,集成越好[A.Krogh&J.Vedelsby,NIPS94]【如何构建好的集成】既然多个个体的集成比单个
6、个体更好,那么是不是个体越多越好?更多的个体意味着:在预测时需要更大的计算开销,因为要计算更多的个体预测更大的存储开销,因为有更多的个体需要保存个体的增加将使得个体间的差异越来越难以获得【个体越多越好吗?】集成策略有多种策略可以将q个弱分类器组合成集成分类器。集成策略从大小为n的原始数据集D中独立随机地抽取n’个数据(n’<=n),形成一个自助数据集;重复上述过程,产生出多个独立的自助数据集;利用每个自助数据集训练出一个“分量分类器”;最终的分类结果由这些“分量分类器”各自的判别结果投票决定。基本思想:对
7、训练集有放回地抽取训练样例,从而为每一个基本分类器都构造出一个跟训练集相当大小但各不相同的训练集,从而训练出不同的基本分类器;该算法是基于对训练集进行处理的集成方法中最简单、最直观的一种。【Bagging算法】【Bagging算法】【Boosting算法】Boosting流程描述Step1:原始训练集输入Step2:计算训练集中各样本的权重Step3:采用已知算法训练弱学习机,并对每个样本进行判别Step4:计算对此次的弱学习机的权重Step5:转到Step2,直到循环到达一定次数或者某度量标准符合要求S
8、tep6:将弱学习机按其相应的权重加权组合形成强学习机核心思想样本的权重没有先验知识的情况下,初始的分布应为等概分布,也就是训练集如果有N个样本,每个样本的分布概率为1/N每次循环一后提高错误样本的分布概率,分错样本在训练集中所占权重增大,使得下一次循环的弱学习机能够集中力量对这些错误样本进行判断。弱学习机的权重准确率越高的弱学习机权重越高循环控制:损失函数达到最小在强学习机的组合中增加一个加权的弱学习机,使准确率提高,损失函
此文档下载收益归作者所有