资源描述:
《数据挖掘——使用R软件预测海藻数量.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、使用R软件预测海藻数量李强强2013.11R软件R是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言:可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能。R在语义上是函数设计语言。它允许在“语言上计算”。这使得它可以把表达式作为函数的输入参数,而这种做法对统计模拟和绘图非常有用。R是一个免费的自由软件。本案例使用的是R的3.0.1版。10/5/20212背景描述某些高浓度的有害藻类严重破坏着河流的生态环境,因此,能够监测并及早对海藻
2、的繁殖进行预测对提高河流的质量是很有必要的。在约一年时间内,在不同的时间收集了多条不同河流的水样。每个水样测定了它们不同的化学性质和7种有害藻类的存在频率。还记录了如收集的季节、河流大小和水流速度。案例研究动机:1.化学监测相对人工检测价格便宜,且易于自动化。2.更好地了解藻类的频率和水样的某些化学性质以及其他特性(如季节、河流类型等)是如何相关的。10/5/202130海藻数据第一个数据集:包含200个水样。每条记录是一条河流在该年的同一季节的三个月内收集的水样的平均值。其中,每条记录由11个变量组成。其中3个名义变量:水样收集的季节、河流大小和河水速度。8个变量是水样的不
3、同化学参数:最大pH值、最小含氧量、平均氯化物含量、平均硝酸盐含量、平均氨含量、平均正磷酸盐含量、平均磷酸盐含量和平均叶绿素含量。与之相关的是7种不同的有害藻类的频率数目。第二个数据集:140个不含7种藻类频率数目的测试集。10/5/202141数据加载1.点击文件菜单下的"改变工作目录"来设定当前工作目录。2.输入以下命令把文件中的数据读入:algae<-read.table('Analysis.txt',col.names=c('season','size','speed','mxPH','mnO2','Cl','NO3','NH4','oPO4','PO4','Chla
4、','a1','a2','a3','a4','a5','a6','a7'),na.strings=c('XXXXXXX'))3.点击文件菜单下的“保存工作空间”,输入文件名,退出,下次打开R后可通过拖拽的方式直接打开。10/5/202152数据摘要鉴于没有该问题领域足够的信息,首先了解一些数据的统计特性是一种较好的方式,它方便我们更好地理解问题。获取数据统计特性的方法之一是获取其描述性的统计摘要。命令如下:summary(algae)对于名义变量,它给出了每个可能取值的频数。对于数值变量,它提供了均值、中位数、四分位数和极值等一系列统计信息。NA's表示缺失值的个数。通过观察
5、这些值,我们可以了解到数据分布的偏度和分散情况。10/5/202163数据可视化(1)1.绘制变量mxPH的直方图的两种方式:hist(algae$mxPH)hist(algae$mxPH,prob=T)区别在于前者给出的是频数,后者是区间的概率。2.绘制mxPH的Q-Q图:library(car)qqPlot(algae$mxPH,main='NormalQQplotofmaximumpH')Q-Q图绘制变量值和正态分布的理论分位数的散点图。同时,它给出正态分布的95%置信区间的带状图(虚线)。main为设置图形的标题。10/5/202173数据可视化(2)3.绘制变量oP
6、O4的箱图:boxplot(algae$oPO4,ylab="oPO4")rug(algae$oPO4,side=4)abline(h=mean(algae$oPO4,na.rm=T),lty=2)ylab为设置y轴标题;rug函数绘制变量的实际值,side=4表示绘制在图的右侧(1在下方,2在左侧,3在上方);abline函数绘制水平线,mean表示均值,na.rm=T指计算时不考虑NA值,lty=2设置线型为虚线。10/5/202184数据清理数据缺失的情形在实际问题中非常普遍。处理含有缺失值的数据时常用的几种策略:将含有缺失值的案例剔除。用中心趋势值来填补缺失值。根据变
7、量之间的相关关系填补缺失值。根据案例之间的相似性填补缺失值。使用能够处理缺失值数据的工具(见下一节)。10/5/202194.1剔除缺失值(1)1.适用范围:含缺失值的记录在整个数据集中比例很小时。2.检查含缺失值的记录:algae[!complete.cases(algae),]3.剔除所有含缺失值的记录:algae<-na.omit(algae)4.找出每个记录中缺失值的个数:apply(algae,1,function(x)sum(is.na(x)))函数apply()是元函数,可在某些条件下对对