毕业论文--基于bagging采样下的集成学习模型

毕业论文--基于bagging采样下的集成学习模型

ID:33052261

大小:161.35 KB

页数:27页

时间:2019-02-19

毕业论文--基于bagging采样下的集成学习模型_第1页
毕业论文--基于bagging采样下的集成学习模型_第2页
毕业论文--基于bagging采样下的集成学习模型_第3页
毕业论文--基于bagging采样下的集成学习模型_第4页
毕业论文--基于bagging采样下的集成学习模型_第5页
资源描述:

《毕业论文--基于bagging采样下的集成学习模型》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于Bagging采样下的集成学习模型信息与计算科学14-1班摘要木文采用Bagging-并行化的个体学习器,即冇放回地抽取训练样本集,每个基学习器只使用了初始训练集中约63.2%的样本,剩下的约36.8%的样木可用作验证集来对泛化性能进行包外估计(out・of・bagestimate).采用libsvm方法得到个体学习器的泛化误差及强学习器的包外泛化误差及运行时间。得到个体学习器的准确率及强学习器的包外课差,结论个体学习器良好,强学习器较差。关键词集成学习、Bagging、泛化误差、svm支持向量机一集成学习理论1.1集成学习集成学习(

2、ensemblelearning)是通过构建并结合多个学习器来完成学习任务的,因此有写文章中也称其为多分类器系统(multi-classifiersystem)或者是委员会学习(committee-basedlearning)0下图是集成学习的一般结构,将一组“个体学习器”(individuallearner)用一些何理的策略结合起来,这些个体学习器可以是各种弱分类器,例如决策树算法,BP神经网络等。若所有的个体学习器是同种类型的,则称这样的集成是“同质”的(homogeneous),此时的学习器也可以称作是“基学习器”(baselear

3、ner),相应的学习算法则为“基学习算法”(baselearningalgorithm)集成中的个体学习器包含不同的学习器,则称这样的集成为“异质”的(heterogenous),此时的个体学习器则被称为是“组件学习器"(componentlearner)也"J以被直接称为个体学习器。弱学习器:指泛化性能略优于随机猜测的学习器;例如在二分类问题中精确度略高于50%的分类器。1.2Bagging与随机森林学习方法本文说明采用并行化的个体学习器生成方式,和上文的Boosting串行化要求个体学习器存在强依赖关系不同的是,该生成方式是基于个体学

4、习器应尽可能相互独立。独立的个体学习器可以得到泛化性能强的集成;当然现实中不存在绝对的独立,不过可以设法使基学习器尽可能具有较大差异。一种方法就是对训练样本进行采样,产生出若干个不同的子集,再从侮个数据集子集屮训练出一个基学习器。不过如果采样出的侮个子集完全不同,那么侮个基学习器只用到了部分训练数据,可能都无法进行有效学习。因此,考虑使用相互有交叠的采样子集。假定基学习器的计算复杂度为O(m),则Bagging的复杂度大致为T(O(m)+O⑸),因采样与投票/平均过程的复杂度O⑸很小,且T是一个不太大的常数(训练轮数),因此,训练一个Ba

5、gging集成与直接使用基学习算法训练一个学习器的复杂度同阶,可见Bagging是一个高效的集成学习算法。与标准的AdaBoost算法只适用于二分类任务不同,Bagging能不经修改地用于多分类、回归等任务。自助采样过程还给Bagging带来一个优点:由于每个基学习器只使用了初始训练集屮约63.2%的样本,剩下的约36.8%的样本可用作验证集来对泛化性能进行包外估计(out・of・bagestimate),为此需记录每个基学习器所使用的训练样本。令Dt表示ht实际使用的训练样本集,令Hoob(x)表示对样本x的包外预测,即仅考虑哪些未使用

6、x训练的基学习器在x上的预测,有:r=argmaxXII(勺(兀)=刃・

7、

8、(兀GDJ则Bagging泛化误差的包外估值为:z事实上,包外样本还有其他用途,如当基学习器是决策树时,可使用包外样本来辅助剪枝,或用于估计决策树中各结点的后验概率以辅助对零训练样本结点的处理;当基学习器是神经网络时,可使用包外样本来辅助早起停止以减小过拟合风险。从偏差■方差分解的角度看,Bagging主要关注降低方差,因此它在不剪枝决策树、神经网络等易受样本扰动的学习器上效用更为明显。二个体学习器2.1libsvm个体学习器LIBSVM是台湾大学林智仁(LinC

9、hih-Jen)教授等2001年开发设计的一个简单,易于使用和快速有效的SVM模式识别与回归的软件包,他不但提供了编译好的可在Windows系列系统的执行文件,还提供了源代码,方便改进,修改以及在其它操作系统上应用;该软件对SVM所涉及的参数调节相对比较少,提供了很多的默认参数,利用这些默认参数可以解决很多问题;2.2执行参数2.2.1svmtrain的用法svmtrain我们在前面己经接触过,他主要实现对训练数据集的训练,并可以获得SVM模型.用法:svmtrain[options]training_set_file[model_fil

10、e]training_set_file是要进行训练的数据集;model_file是训练结束后产生的模型文件,文件中包括支持向量样本数,支持向量样本以及lagrange系数等必须的参数;该参数如

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。