欢迎来到天天文库
浏览记录
ID:1473932
大小:1.28 MB
页数:27页
时间:2017-11-11
《选择性集成(selectiveensemble)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、选择性集成(SelectiveEnsemble)周志华http://cs.nju.edu.cn/people/zhouzh/Email:zhouzh@nju.edu.cn南京大学计算机软件新技术国家重点实验室泛化:generalization泛化能力越强,处理新数据的能力越好泛化能力是机器学习关注的基本问题之一提高泛化能力是永远的追求泛化能力集成学习(EnsembleLearning)是一种机器学习范式,它使用多个(通常是同质的)学习器来解决同一个问题集成学习问题…...…...问题集成学习中使用的多个学习器称为个体学习器当个体学习器均为决策树时
2、,称为“决策树集成”当个体学习器均为神经网络时,称为“神经网络集成”…………由于集成学习技术可以有效地提高学习系统的泛化能力,因此它成为国际机器学习界的研究热点,并被国际权威T.G.Dietterich称为当前机器学习四大研究方向之首[T.G.Dietterich,AIMag97]集成学习的重要性问题:对20维超立方体空间中的区域分类左图中纵轴为错误率从上到下的四条线分别表示:平均神经网络错误率最好神经网络错误率两种神经网络集成的错误率令人惊奇的是,集成的错误率比最好的个体还低[L.K.Hansen&P.Salamon,TPAMI90]集成学习的
3、用处集成学习技术已经在行星探测、地震波分析、Web信息过滤、生物特征识别、计算机辅助医疗诊断等众多领域得到了广泛的应用只要能用到机器学习的地方,就能用到集成学习期望结果个体1(精度33.3%)个体2(精度33.3%)个体3(精度33.3%)集成(精度33.3%)投票个体必须有差异期望结果个体1(精度33.3%)个体2(精度33.3%)个体3(精度33.3%)集成(精度0%)投票个体精度不能太低个体学习器越精确、差异越大,集成越好[A.Krogh&J.Vedelsby,NIPS94]如何构建好的集成既然多个个体的集成比单个个体更好,那么是不是个体越
4、多越好?更多的个体意味着:在预测时需要更大的计算开销,因为要计算更多的个体预测更大的存储开销,因为有更多的个体需要保存个体的增加将使得个体间的差异越来越难以获得个体越多越好吗?ManyCouldbeBetterThanAll:在有一组个体学习器可用时,从中选择一部分进行集成,可能比用所有个体学习器进行集成更好[Z.-H.Zhouetal.,AIJ02]从一组个体学习器中排除出去的个体(k)应满足:分类选择性集成回归遗憾的是,上述公式在解决实际问题时难以直接使用…...w1w2…...wn利用遗传算法进化…...遗传算法选择随机生成若干权向量,权向
5、量的每个分量对应了一个个体学习器,这些权向量被遗传算法进化,得到一个最优权向量,它表示了各个体学习器在构成集成时的“重要性”,据此进行个体的选择假设w2<1/n分类:有排除的投票回归:有排除的平均为了证明选择性集成学习的可操作性,我们提出了GASEN算法w11w12…...w1nw21w22…...w2nwm1wm2…...wmn随机生成一个权向量群体…...…...…...…...[Z.-H.Zhouetal.,AIJ02]GASEN(基于遗传算法的选择性集成学习算法)与著名的集成学习算法Bagging和Boosting相比,GASEN获得了更
6、高的(或相当的)精度,而且使用的个体学习器少得多(回归:19%(3.71/20);分类:36%(7.10/20.0))[Z.-H.Zhouetal.,AIJ02]实验结果给定学习目标和训练集规模,bias度量了学习算法的平均估计结果与目标的接近程度variance度量了在同样规模的不同训练集上,学习算法的估计结果的扰动程度以往研究表明,Bagging主要减小variance,而Boosting主要减小bias[E.Bauer&R.Kohavi,MLJ99;L.Breiman,TechRep96]我们采用的分解机制为[R.Kohavi&W.H.Wo
7、lpert,ICML96]Bias-Variance分解在回归任务中,GASEN在减小bias和variance方面都优于Bagging和Boosting在分类任务中,GASEN在减小bias方面优于Bagging,在减小variance方面优于Boosting……GASEN的成功在于其既可以有效地减小bias,又可以有效地减小variance[Z.-H.Zhouetal.,AIJ02]回归分类biasvariance分解结果生物特征识别:选择性集成的一个应用BillGates:以人类生物特征进行身份验证的生物识别技术,在今后数年内将成为IT产业
8、最为重要的技术革命人脸脸部热量图指纹手形手部血管分布虹膜视网膜签名语音人脸识别人脸识别因识别方式友好、可隐蔽而备受学术界和工业界关注(但
此文档下载收益归作者所有