欢迎来到天天文库
浏览记录
ID:59363952
大小:1.19 MB
页数:18页
时间:2020-01-28
《实验8-1 数据分析.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、实验8-1数据分析一、实验目的1.理解数据挖掘的一般流程。2.掌握数据探索和预处理的方法。3.使用PHSTAT软件,结合Excel对给定的数据进行手工预处理。4.使用WEKA软件,对给定的数据进行预处理。二、实验内容在D盘中以“班级-学号-姓名”命名一个文件夹,将下发的数据拷贝到该文件夹下,根据不同要求,对下发的文件进行相应的数据分析和处理。0.数据集介绍银行资产评估数据bank-data.xlsx,数据里有12个属性,分别是id(编号),age(年龄),sex(性别),region(地区),income(收入),married(婚否),children(子女数),car(是否有私家车
2、),save_act(是否有定期存款),current_act(是否有活期账户),mortgage(是否有资产抵押),pep(目标变量,是否买个人理财计划PersonalEquityPlan)。1.数据探索之数据质量分析新建“1-数据质量分析.xlsx”文件,导入“0-bank_data.xlsx”文件数据,请你用EXCEL对其进行数据质量分析。【要求】18(1)请找出bank_data.xlsx表中的含有缺失值的记录。(2)请你用PHSTAT软件绘制“income(收入)”属性的箱线图和点比例图,筛选出异常值。(3)计算Whisker上限、Whisker下限,并利用高级筛选,找出该属
3、性的异常值记录。【提示】(1)请找出bank_data.xlsx表中的含有缺失值的记录。方法1:条件格式法1)选取A1:L601区域。2)开始-->条件格式-->新建规则(N)...,在"新建格式规则"对话框中,选择空值。如图8-1所示。图8-1“新建格式规则”对话框3)点击“格式(F)…”按钮,设置特殊格式,高亮显示。如图8-2所示。18图8-2设置条件格式方法2:1)缺失值定位。“开始”à“编辑/查找和选择”à“定位”对话框à“定位条件”按钮。2)“定位条件”对话框à选择“空值”,如图8-3所示。图8-3“转到(G)…”下拉菜单命令和“定位条件”对话框(2)绘制“income”属性
4、箱线图和点比例图。高级筛选出异常值。“加载项/PHStat”à“DescriptiveStatistics”à“Boxplot…”或”DotScaleDiagram…“命令。如图8-4所示。注意选中“income”属性,如果18数据区域包括标题行(E1单元格),则勾选下面的Firstcellcontainslabel选项,否则,不用勾选Firstcellcontainslabel选项。(a)(b)(c)(d)图8-4PHSTAT软件的“箱线图”和“点比例图”绘制计算income属性的最小值、最大值、第一四分位数、中位数、第三四分位数。以及Whisker下限和上限。表8-1四分位数表箱线
5、图公式数值最小值=MIN(E2:E601)5014.2118或=QUARTILE.INC(E2:E601,0)最大值=MAX(E2:E601)或=QUARTILE.INC(E2:E601,4)78843.21第一分位数=QUARTILE.INC($E$2:$E$601,1)17264.5第二分位数(中位数)=MEDIAN($E$2:$E$601)或=QUARTILE.INC(E2:E601,2)24925.3第三分位数=QUARTILE.INC(E2:E601,3)36172.675Whisker上限=QL-1.5*(Qu-QL)-11097.763Whisker下限=Qu+1.5*(
6、Qu-QL)64534.9375高级筛选,筛选出大于Qu,小于QL的离群点。1)设置条件区域,如图8-5所示。income<-11097.7625>64534.9375图8-5高级筛选“条件区域”2)设置高级筛选。2.数据探索之数据特征分析建立“2-数据特征分析.xlsx”文件,导入“0-bank_data.xlsx”文件18,请你用EXCEL对其进行数据特征分析。【要求】(1)针对age属性进行分布分析。填写8-2和8-3表。表8-2年龄分布分析表表8-3年龄数据统计表(2)根据上一步的age属性分组,分别用EXCEL分布工具和PHSTAT软件绘制直方图。(3)同理,将收入属性分组,
7、计算各年龄段收入汇总和购买理财计划汇总,找出购买理财计划的主要群体。【提示】(1)age分为三组(青年组、中年组和老年组),填写age数据统计,如表8-4所示。表8-4年龄数据分布公式表年龄数据分布公式值所在单元格数据个数=COUNT(B2:B601)600O4最大值=MAX(B2:B601)67O5最小值=MIN(B2:B601)18O6平均值42.395O718=AVERAGE(B2:B601)标准差=STDEV.P(B2:B601)14.
此文档下载收益归作者所有