r与数据挖掘(学习决策树和随机森林的r语句)

r与数据挖掘(学习决策树和随机森林的r语句)

ID:22047692

大小:496.08 KB

页数:19页

时间:2018-10-26

r与数据挖掘(学习决策树和随机森林的r语句)_第1页
r与数据挖掘(学习决策树和随机森林的r语句)_第2页
r与数据挖掘(学习决策树和随机森林的r语句)_第3页
r与数据挖掘(学习决策树和随机森林的r语句)_第4页
r与数据挖掘(学习决策树和随机森林的r语句)_第5页
资源描述:

《r与数据挖掘(学习决策树和随机森林的r语句)》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、数据挖掘报告乳腺癌的分析摘要此次实验的0的主要是研究分类,对乳腺癌的类型良性的还是恶性的进行分类。比较一下什么方法更好。数据共包括699个观测值,每个观测有11个变量。有缺失值。主要是运用了R和SAS两个软件进行分析的。R中用的方法都是数据挖掘中的一些典型方法。SAS中是采用了判别与聚类的方法。原始数据已经将类别分好了,对于分类研究使用不同的方法看一"卜哪种方法的精度更高。关键词:数据挖掘方法、判别、聚类一数据的描述:a)—共冇699个观测,11个变景。b)变景解释:••id””c■ump_thickness””肿块的密度取值1-10”

2、uniformity_ce■■_size’’细胞的大小均匀度取值1-10”uniformity_ce1l_shape”细胞的形状的均匀度取值1-10••marginal_adhesiorT边缘部分的黏着度取值1-10”single_epithelialcell_size”单一的上皮细胞的人小取值1-10”bare_nuclei”裸露细胞核取值1-10”b■and_chromatin”染色质取值1-10"normal—nucleoli”JT常的细胞核取值1-10”mitoses”柯丝分裂取值1-10"btype"类型2-良性,4-恶性c)

3、数据是共有16个缺失值的,在”bare__nuclei”这个变景中d)对缺失值的处理共采用了三种方法:直接删除、利用均值进行插补、利用中位数进行插补。e)后而采用的方法最基本的数据足采用了中位数的方法进行差补以后的。二R语言采用的方法介绍共5种方法(决策树,祌经网络,支持向量机,随机森林,最近邻方法)A)数据的基本处理1)读入txt格式数扼,将btype设为分类变景breast_cancer<-read.delimCbreast_cancer.txt");breast一cancer$btype〈-factor(breast_cancer

4、$btype);2)攰示16个缺失值所在的行数which(complete.cases(breast_cancer)==F);[1]24411401461591652362502762932952983163224126183)缺失值的处理方法a)直接删除breast_cancer_delete<-na.omit(breast_cancer);b)均€进行差"补breastcancermean<-breastcancer;for(rinwhich(!complete.cases(breast_cancer))){breast_cance

5、r_mean[r,which(is.na(breast_cancer[r,]))]<-apply(data.frame(breast_cancer[,which(is.na(breast_cancer

6、r,J))J),2,mean,na.rm=T);}c)中位数进行插补breastcancermedian<-breastcancer;for(rinwhich(!complete.cases(breast_cancer)))breast_cancer_medianfiwhich(is.na(breast_cancer[r,1))]<-a

7、pply(data.frame(breast_cancer[,which(is.na(breast_cancer[r,]))]),2,median,na.rm=T);B)方法介绍1)分类树使用的包rpart、rpart.plota)使用巾位数填补后的数据进行建模分析以及分析判错率#分类树,请先安装rpart程序包library(rpart);set.seed(lOO);breast.part<-rpart(factor(btype)〜”data=breast—cancer—median,method二’’class’’);table=t

8、able(predict(breast.part,breast_cancer_median,type=nclassn),breast_cancer_median$btype);#计M错判承pErroi-l-sum(diag(table))/nrow(breast_cancer_median);cat("分类的错判率pError为:”,"n,pError,"");分类的错判率pError为:0.03576538#画图,猜先安装rpart.plot程序伍library(rpart.plot);rpart.plot(breast.pa

9、rt);#画Hi分类树结果uniformity_cell_sh<2.5uniformity_cell_si<4.5plotcp(breast.part,minline=TRUE);#交义验证错识率与分类树节

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。