欢迎来到天天文库
浏览记录
ID:22047692
大小:496.08 KB
页数:19页
时间:2018-10-26
《r与数据挖掘(学习决策树和随机森林的r语句)》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、数据挖掘报告乳腺癌的分析摘要此次实验的0的主要是研究分类,对乳腺癌的类型良性的还是恶性的进行分类。比较一下什么方法更好。数据共包括699个观测值,每个观测有11个变量。有缺失值。主要是运用了R和SAS两个软件进行分析的。R中用的方法都是数据挖掘中的一些典型方法。SAS中是采用了判别与聚类的方法。原始数据已经将类别分好了,对于分类研究使用不同的方法看一"卜哪种方法的精度更高。关键词:数据挖掘方法、判别、聚类一数据的描述:a)—共冇699个观测,11个变景。b)变景解释:••id””c■ump_thickness””肿块的密度取值1-10”
2、uniformity_ce■■_size’’细胞的大小均匀度取值1-10”uniformity_ce1l_shape”细胞的形状的均匀度取值1-10••marginal_adhesiorT边缘部分的黏着度取值1-10”single_epithelialcell_size”单一的上皮细胞的人小取值1-10”bare_nuclei”裸露细胞核取值1-10”b■and_chromatin”染色质取值1-10"normal—nucleoli”JT常的细胞核取值1-10”mitoses”柯丝分裂取值1-10"btype"类型2-良性,4-恶性c)
3、数据是共有16个缺失值的,在”bare__nuclei”这个变景中d)对缺失值的处理共采用了三种方法:直接删除、利用均值进行插补、利用中位数进行插补。e)后而采用的方法最基本的数据足采用了中位数的方法进行差补以后的。二R语言采用的方法介绍共5种方法(决策树,祌经网络,支持向量机,随机森林,最近邻方法)A)数据的基本处理1)读入txt格式数扼,将btype设为分类变景breast_cancer<-read.delimCbreast_cancer.txt");breast一cancer$btype〈-factor(breast_cancer
4、$btype);2)攰示16个缺失值所在的行数which(complete.cases(breast_cancer)==F);[1]24411401461591652362502762932952983163224126183)缺失值的处理方法a)直接删除breast_cancer_delete<-na.omit(breast_cancer);b)均€进行差"补breastcancermean<-breastcancer;for(rinwhich(!complete.cases(breast_cancer))){breast_cance
5、r_mean[r,which(is.na(breast_cancer[r,]))]<-apply(data.frame(breast_cancer[,which(is.na(breast_cancer
6、r,J))J),2,mean,na.rm=T);}c)中位数进行插补breastcancermedian<-breastcancer;for(rinwhich(!complete.cases(breast_cancer)))breast_cancer_medianfiwhich(is.na(breast_cancer[r,1))]<-a
7、pply(data.frame(breast_cancer[,which(is.na(breast_cancer[r,]))]),2,median,na.rm=T);B)方法介绍1)分类树使用的包rpart、rpart.plota)使用巾位数填补后的数据进行建模分析以及分析判错率#分类树,请先安装rpart程序包library(rpart);set.seed(lOO);breast.part<-rpart(factor(btype)〜”data=breast—cancer—median,method二’’class’’);table=t
8、able(predict(breast.part,breast_cancer_median,type=nclassn),breast_cancer_median$btype);#计M错判承pErroi-l-sum(diag(table))/nrow(breast_cancer_median);cat("分类的错判率pError为:”,"n,pError,"");分类的错判率pError为:0.03576538#画图,猜先安装rpart.plot程序伍library(rpart.plot);rpart.plot(breast.pa
9、rt);#画Hi分类树结果uniformity_cell_sh<2.5uniformity_cell_si<4.5plotcp(breast.part,minline=TRUE);#交义验证错识率与分类树节
此文档下载收益归作者所有