欢迎来到天天文库
浏览记录
ID:59194561
大小:847.50 KB
页数:6页
时间:2020-09-10
《数据挖掘作业一.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、数据挖掘作业一——班级信息的挖掘姓名:韩占堂学号:日期:2014年12月17日班级:硕4102班代课老师:代文娟一、作业要求Requirement:Usetheclassmates'personalinformationtoexplorethedatacharacters,youcanextendmorefieldsorrecordsofitifnecessary.1.UseDataAuditNodetoanalyzethemissingdatadistributionandinterpolationthem usinganytheseme
2、thods:none,nullify,coerced,discard,warn,abort. 2.UseMatrixnodetoexploretherelationshipbetweenanytwocategoricalfields3.UseWebnodetoexploretherelationshipamongmultiplecategoricalfields4.UseStatisticsnodetoexploretherelationshipamongmultiplecontinuesfields5.UseMeannodetoexplo
3、retherelationshipbetweencategoricalandcontinuesfields6.UseGraphnodetoexploretherelationshipamonganythreefields.一、作业步骤首先通过IBMSpssModeler软件导入班级信息表,表格的数据如下:图如下图1.1所示,可以看见在班级的信息表中:身高、体重、单身、性格四列数据有缺失项,因此,在数据挖掘整个班级信息的前面的时候,需要通过一定的数据挖掘知识填补缺失值。图1.1源文件首先把数据导入到Modeler中的Excel源数据中,然后通
4、过DataAuditNode审核数据,结果如下图1.2所示:图1.2数据审核然后根据帮助文档对源文件缺失的列进行缺失插补,对身高缺失值插入中程数,对体重插入平均值,对身高和性格随机插入。生成如图1.3所示的文件。图1.3缺失插补然后根据要求对信息进行挖掘,并写出关键信息。1、 Matrixnode挖掘首先通过挖掘单身和性格之间的关系,结果如图1.4所示。可以看出,外向单身12个,内向单身10个,内向的人更容易拥有爱情。可能是因为外向的人更喜欢张狂,不专一,而内向的人永远只会把内心的话告诉一个人。这样的成功率就会高点。还有班级内向和外向的同学
5、基本平均。图1.4矩阵挖掘2、 Webnode挖掘通过对本科专业和性别、性格的分析结果如图1.5所示。可以看出,外向的人并且是男生学习软件工程的专业比较多,这就验证了IT界大多数是男人的事实了。因为软件工程干的活比较累,唯一好处就是比较牛,干好就能赚很多钱。而女生,不怎么适合。图1.5网络挖掘3、 Statisticsnode挖掘对于年龄和身高统计,仅仅能知道平均值和其最大值最小值的信息。具体如图1.6所示。1,6统计图4、Meannode对于年龄、身高、体重的均值分析,如图所示1.7所示。在三个连续的列中,班级学生的身高、体重、是最重要
6、的、而年龄不是重要的。同时男的身高比女生平均高10cm左右。而体重高于12kg。同时年龄的方差比较小,分布比较均匀,而身高的方差比较大。图1.7均值挖掘5、Graphnode对于身高和年龄和籍贯进行分析,如图1.8所示。对于年龄比较大的,身高一般,但是大多分布在南方的省会,而北方的同学年龄偏小。身高却同籍贯没有特别的联系。身高集中分布在1.6到1.8之间。
此文档下载收益归作者所有