资源描述:
《数据预处理报告》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、为了适应公司新战略的发展,保障停车场安保新项目的正常、顺利开展,特制定安保从业人员的业务技能及个人素质的培训计划数据预处理报告 知识发现与数据挖掘实验报告 (武汉理工大学,XX秋季,计算机学院) 实验2–了解数据及数据预处理XX/12/23,6:30PM—9:10PM 在了解并熟悉R语言的一些基本操作基础上,进一步使用统计方法去更好地了解数据及完成数据预处理。 注意:数据预处理的内容很多,可以针对具体的内容深入,所以不必求全。实验任务描述 (1)进一步学习R中关于数据统计分析的程序编码实现。 (2)数
2、据预处理包括数据清理、数据集成、数据归约及数据转换。请确定实验中自己的任务,并在实验的主要方法中进行描述。 实验主要方法 ? ? ? ?目的-通过该培训员工可对保安行业有初步了解,并感受到安保行业的发展的巨大潜力,可提升其的专业水平,并确保其在这个行业的安全感。为了适应公司新战略的发展,保障停车场安保新项目的正常、顺利开展,特制定安保从业人员的业务技能及个人素质的培训计划 首先了解R统计分析中正态分布、偏态分布以及直方图的特点;通过模拟数据集,熟悉R语言统计分析中相关函数并加以应用;了解数据预处理的各个
3、过程,模拟数据集进行数据回归;分析实验结果,进一步了解R数据统计分析以及数据回归相关知识。 数据及分析 (1)由图1可知:直方图的分组是对大量资料的简化,如果资料很多,分组很密,那么直方图就会趋近与曲线,这样得到的光滑的曲线就是数据的分布曲线,它反映了数据的统计规律。 (2)由图2、3、4可以看出:正态分布图高峰位于正中央,即均数所在的位置,以均数为中心,左右对称,曲线两端永远不与横轴相交,由均数所在处开始,分别向左右两侧逐渐均匀下降。正态分布有两个参数,即均数μ和标准差σ,可记作N:均数μ决定正态曲线的中心
4、位置;标准差σ决定正态曲线的陡峭或扁平程度。σ越小,曲线越陡峭;σ越大,曲线越平。 (3)与正态分布相对而言。它有两个特点:一是左右不对称;二是当样本增大时,其均数趋向正态分布。偏态分布是指频数分布不对称,集中位置偏向一侧。若集中位置偏向数值小的一侧,称为正偏态分布;集中位置偏向数值大的一侧,称为负偏态分布,如图所示5所示。 (4)数据回归是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,本次实验采用的是简单的线性回归,如图6所示。目的-通过该培训员工可对保安行业有初步了解,并感受到安保行业的发展
5、的巨大潜力,可提升其的专业水平,并确保其在这个行业的安全感。为了适应公司新战略的发展,保障停车场安保新项目的正常、顺利开展,特制定安保从业人员的业务技能及个人素质的培训计划 实验结果、结论 图表1图表2 图表3图表 4 图表5图表6参考 [1]R核心开发小组.R导论.中文版本,XX-6-15 [2]部分网上豆瓣小组 程序源代码 1.>xhist(x,"main"="直方图") 2.>a=rnorm(1000,0,50) >bcplot(b,c,"main"="标准正态分布图") 3.>xyp
6、lot(x,y,col="red",xlim=c(-5,5),ylim=c(0,1),type='l',+xaxs="i",yaxs="i",ylab='density',xlab='',+main="TheNormalDensityDistribution")> >lines(x,dnorm(x,0,),col="green") >lines(x,dnorm(x,0,2),col="blue") >lines(x,dnorm(x,-2,1),col="orange") 4.>x=rnorm(1200,,)
7、 >x=rnorm(1200,433,56) >m=sort(x) >y=dnorm(m,433,56)目的-通过该培训员工可对保安行业有初步了解,并感受到安保行业的发展的巨大潜力,可提升其的专业水平,并确保其在这个行业的安全感。为了适应公司新战略的发展,保障停车场安保新项目的正常、顺利开展,特制定安保从业人员的业务技能及个人素质的培训计划 >plot(m,y,"main"="正态分布图") (1) x#include#include#defineDEEP3 #defineDATAFILE""#def
8、ineVPT10 //定义结构体 typedefstructchain{intnum; structchain*next;}*data; //定义全局变量 datahead,p,q;FILE*fp; intnum,sum,count=0;inti,j; int*box;voidmean();voidmedain();voidboundary()