数据分析算法与模型模拟题(三)(附答案).doc

数据分析算法与模型模拟题(三)(附答案).doc

ID:53800219

大小:129.17 KB

页数:7页

时间:2020-04-07

数据分析算法与模型模拟题(三)(附答案).doc_第1页
数据分析算法与模型模拟题(三)(附答案).doc_第2页
数据分析算法与模型模拟题(三)(附答案).doc_第3页
数据分析算法与模型模拟题(三)(附答案).doc_第4页
数据分析算法与模型模拟题(三)(附答案).doc_第5页
资源描述:

《数据分析算法与模型模拟题(三)(附答案).doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、.一、计算题(共4题,100分)1、通过分析关于二手车的相关变量,研究这些变量怎么影响二手车的交易价格。二手车抽样-预处理.csv收集的数据包含:变量名代表含义数据类型备注yuanjia原价连续变量汽车原价baojia报价连续变量汽车报价licheng里程连续变量累计里程数(单位:万公里)pailiang排量.L.连续变量发动机单位时间内释放的能量mali最大马力.Ps.连续变量最大动力输出changshang厂商离散变量十一分类——排名前十的厂商分别用1-10表示,以及前十以外的其他水平cheshen_type车身结构-车类型离散变量四分类——“SUV

2、”、“两厢”、“三厢”、“MPV”pengzhuang排除重大碰撞离散变量排除重大碰撞(0)&存在重大碰撞(1)waiguan_xiufu外观修复检查离散变量排除外观修复(0)&存在外观修复(1)waiguan_quexian外观缺陷检查离散变量排除外观缺陷(0)&存在外观缺陷(1)neishi_quexian内饰缺陷检查离散变量排除内饰缺陷(0)&存在内饰缺陷(1)shangpaishijian上牌时间连续变量与2017年2月之间的时间差(单位:月)..对数据进行预处理,分析应采用的模型,写出详细的思路和数据分析过程,用多种方法检验和解释模型,说明模型

3、的实际意义。答案解析:因变量采用车辆报价数据,自变量选择除车辆报价数据之外的其他变量,进行线性回归分析可以看到删除了三个变量,R方和调整R方都接近1,模型拟合度很好。由于自变量中真皮座椅、外观缺陷、车身类型未通过t检验,因此需要将这三个变量删除后再做线性回归分析,可得:   Y=1.1036-0.0646shangpaishijian-0.1064licheng-0.4235biansu+0.8482zhouju-1.0036pailiang+0.0154mali-0.1729tianchuang1+0.7581tianchuan2+0.3974daoc

4、heyingxiang-0.5061GPS-0.2864waiguan_xiufu+0.5156yuanjia+0.1665paifang-0.0199changshang模型拟合效果很好,且通过了F检验和t检验,(常数项的t检验可以不通过)可以根据此模型对二手车进行价格评估2、利用Apriori算法,写出下列购物篮数据的频繁项集和强关联规则(设定支持度为2,置信度为0.7)若此购物篮数据为某超市随机选取的7位顾客的交易数据,请结合之前得到的结果为该超市提一些建议。答案解析:..先将给定的数据整理成datahoop关联分析可识别的格式,导入datahoo

5、p平台,对变量牛肉、鸡肉、牛奶、奶酪、靴子、衣服进行关联分析。设置最小支持度为2/7=0.286,最小置信度为0,可以得到频繁项集(删除重复)。设置最小支持数为2/7=0.286、最小置信度=0.7,可以得到提升度>1的有效强关联规则(删除单项)解答:首先对原数据进行预处理至然后再处理至导入datahoop平台,设置支持度为0.286,置信度为0..删除重复项一项频繁项集:(e)、(a)、(d)、(b)、(c)二项频繁项集:(a,e)、(d,e)、(b,e)再将支持度和置信度的值分别设置成0.286和0.7,导入datahoop平台二项的有效强关联规则:

6、aeeadebe三项的强关联规则:(a,d)e(d,e)a(a,b)e从上面数据可以看出牛肉和鸡肉等肉食产品可以放在一起,方便客户选择,牛奶和奶酪则要放在附近的走道旁,让需要的顾客更方便拿取..3、以下数据是31个省市各行业的工资情况,各行业工资难免相关,因此,请先进行降维处理再进行聚类分析。降维、聚类.xls答案解析:分析数据发现无缺失值,且不需要进行其他处理。本案例采用k-means算法进行聚类,因此还需考虑异常值和共线性。由于数据量太少,单独一个数据也可能是一个特殊的类,因此这里不做异常值处理。由相关系数矩阵分析发现变量之间存在共线性,所以不能直接

7、进行聚类,接下来用主成分分析对变量进行降维处理。设置主成分个数为2时发现累计贡献率为0.9557,效果很好,可以用PC1和PC2进行聚类分析。(这里PC1和PC2是由标准化后的变量求得的,很小,且没有量纲差距,所以聚类分析时不再进行标准化)。接下来用k-means算法对PC1和PC2进行聚类分析,分别选3,4,5个类别进行聚类,发现聚成三类时效果最好。解答:先将数据导入datahoop平台,进行降维处理得出的贡献率和累计贡献率值均在0至1之间将数据进行聚类分析因为之前已进行降维处理所以不再进行标准化,设置聚类个数为3,初始中心点选择次数为10,最大迭代次

8、数为300..,样本个数依次为2452再将聚类个数设置成4,其他数值不变样本个数

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。