随机森林算法介绍及R语言实现.doc

随机森林算法介绍及R语言实现.doc

ID:48972702

大小:29.69 KB

页数:7页

时间:2020-02-26

随机森林算法介绍及R语言实现.doc_第1页
随机森林算法介绍及R语言实现.doc_第2页
随机森林算法介绍及R语言实现.doc_第3页
随机森林算法介绍及R语言实现.doc_第4页
随机森林算法介绍及R语言实现.doc_第5页
资源描述:

《随机森林算法介绍及R语言实现.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、.随机森林算法介绍及R语言实现随机森林算法介绍算法介绍: 简单的说,随机森林就是用随机的方式建立一个森林,森林里面有很多的决策树,并且每棵树之间是没有关联的。得到一个森林后,当有一个新的样本输入,森林中的每一棵决策树会分别进行一下判断,进行类别归类(针对分类算法),最后比较一下被判定哪一类最多,就预测该样本为哪一类。 随机森林算法有两个主要环节:决策树的生长和投票过程。决策树生长步骤:1.从容量为N的原始训练样本数据中采取放回抽样方式(即bootstrap取样)随机抽取自助样本集,重复k(树的数目为k)次形成一个新的训练集N,

2、以此生成一棵分类树;2.每个自助样本集生长为单棵分类树,该自助样本集是单棵分类树的全部训练数据。设有M个输入特征,则在树的每个节点处从M个特征中随机挑选m(m

3、:1.给定一个弱学习算法和一个训练集,单个弱学习算法准确率不高,可以视为一个窄领域专家;2.将该学习算法使用多次,得出预测函数序列,进行投票,将多个窄领域专家评估结果汇总,最后结果准确率将大幅提升。随机森林的优点:·可以处理大量的输入变量;·对于很多种资料,可以产生高准确度的分类器;·可以在决定类别时,评估变量的重要性;·在建造森林时,可以在内部对于一般化后的误差产生不偏差的估计;教育资料.·包含一个好方法可以估计遗失的资料,并且,如果有很大一部分的资料遗失,仍可以维持准确度;·提供一个实验方法,可以去侦测variablein

4、teractions;·对于不平衡的分类资料集来说,可以平衡误差;·计算各例中的亲近度,对于数据挖掘、侦测偏离者(outlier)和将资料视觉化非常有用;·使用上述。可被延伸应用在未标记的资料上,这类资料通常是使用非监督式聚类。也可侦测偏离者和观看资料;·学习过程很快速。缺点·随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟合;·对于有不同级别的属性的数据,级别划分较多的属性会对随机森林产生更大的影响,所以随机森林在这种数据上产出的属性权值是不可信的。R语言实现寻找最优参数mtry,即指定节点中用于二叉树的最佳变量个数

5、library("randomForest")n<-length(names(train_data))#计算数据集中自变量个数,等同n=ncol(train_data)rate=1#设置模型误判率向量初始值for(iin1:(n-1)){set.seed(1234)rf_train<-randomForest(as.factor(train_data$IS_LIUSHI)~.,data=train_data,mtry=i,ntree=1000)rate[i]<-mean(rf_train$err.rate)#计算基于OOB数据

6、的模型误判率均值print(rf_train)}教育资料.rate#展示所有模型误判率的均值plot(rate)寻找最佳参数ntree,即指定随机森林所包含的最佳决策树数目set.seed(100)rf_train<-randomForest(as.factor(train_data$IS_LIUSHI)~.,data=train_data,mtry=12,ntree=1000)plot(rf_train)#绘制模型误差与决策树数量关系图legend(800,0.02,"IS_LIUSHI=0",cex=0.9,bty="n"

7、)legend(800,0.0245,"total",cex=0.09,bty="n")随机森林模型搭建set.seed(100)rf_train<-randomForest(as.factor(train_data$IS_LIUSHI)~.,data=train_data,mtry=12,ntree=400,importance=TRUE,proximity=TRUE)·importance设定是否输出因变量在模型中的重要性,如果移除某个变量,模型方差增加的比例是它判断变量重要性的标准之一;·proximity参数用于设定是

8、否计算模型的临近矩阵;·ntree用于设定随机森林的树数。输出变量重要性:分别从精确度递减和均方误差递减的角度来衡量重要程度。importance<-importance(rf_train)write.csv(importance,file="E:/模型搭建/importan

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。