考试模拟样题—数据分析算法和模型

考试模拟样题—数据分析算法和模型

ID:42211051

大小:424.95 KB

页数:12页

时间:2019-09-09

考试模拟样题—数据分析算法和模型_第1页
考试模拟样题—数据分析算法和模型_第2页
考试模拟样题—数据分析算法和模型_第3页
考试模拟样题—数据分析算法和模型_第4页
考试模拟样题—数据分析算法和模型_第5页
资源描述:

《考试模拟样题—数据分析算法和模型》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、考试模拟样题一数据分析算法与模型一•计算题(共4题,400.0分)1・下面是7个地区2000年的人均国内生产总值(GDP)和人均消费水平的统计数据:一元线性回归.xlsxxlsx要求:相关系数矩阵人均GDP园人均消费水平(元)人均GDP(元)10.9981人均消费水平(元)0.99811人均GDP与人增消费水平正相关,相关系数为0.9981,相关性比较大。(2)人均GDP作自变量,人均消费水平作因变量,利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义;Y=734.6928+0.3O87*X1人均GDP基数为734.6928,随着人均收入0

2、.3087倍的增长,人均消费水平随之增长。(3)计算判定系数,并解释其意义;R方为0.9963,接近于1,模型拟合度很好。(4)检验回归方程线性关系的显著性(a=0・05);F检验:p值<0.05,模型整体线性关系显著。T检验:p值<0.05,所对应的自变量对因变量的影响显著。(5)如果某地区的人均GDP为5000元,预测其人均消费水平;人均消费水平为2278.1066o(所有(6)求人均GDP为5000元时,人均消费水平95%的置信区间和预测区间。结果均保留三位小数)置信区间[1990.749,2565.464]和预测区间[1580.463,29

3、75.750]。2•根据以下给出的数据进行分析,本次给出莺尾花数据,其中包含萼片长、萼片宽、花瓣长、花瓣宽、以及花的类型数据,请根据以下问题进行回答。(本题数据提供在excel里面,数据分析为三份,一份训练数据,一份测试数据,份预测数据)莺尾花训练数据.xlsx莺尾花测试数据.xlsx莺尾花预测数据.xlsxl=J至根据训练数据,用类型_num作为因变量Y,其他变量作为自变量X,做逻辑回归,写出逻辑回归的方程。数值类型是数据型,没有缺失值;根据箱型图进行了异常值分析,占比比较少,可能是数据分类的特征,因此不进行异常值处理;0.56740.52680

4、.79551相关系统矩阵分析,虽然存在相关,但是相关性不是特别强,所以不进行处理。萼片长(cm)10.50030.8331萼片宽(cm)0.500310.4752花黠长(cm)0.83310.47521花瘵宽(cm)0.56740.52680.7955相歩涯阵Intercept萼片长5)萼

5、花腐长(cm)10.99221.46261.5556-2.1949-2.2906逻辑回归的方程:In[P(Y)/l-P(Y)]=0.9922+1.4626X1+1.5556X2-2.1949X3-2.2906X4将预测结果和原训练集中的实际分类进行对比,得到如下

6、混淆矩阵和计算出相应的准确率、召回率,结果如下:AccuracyAUC0.97330.9936PrecisionRecallFl・scoreSupport00.945910.972235110.950.974440由混淆矩阵可知Accuracy和准确率召回率都比较大,模型预测效果较好,训练误差不大。可以用该模型进行预测。根据测试数据得到的结果,写出逻辑回归的混淆矩阵,以及准确率和召回率,Accuracy和Fl的值(可根据测试数据结果计算表格得到测试数据集的相应的结果)。将训练数据和测试数据进行预测,对比测试数据的预测结果和实际分类,得到如下混淆矩阵

7、和计算出相应的Accuracy.准确率召回率,结果如下:类型_numy_predict_newDATA110110001100Accuracy0.933333330000TRUE10PrecisionRecallFl-score10Predict10■00110.90.8333333330.90909110.947368111900000100100由混淆矩阵可知Accuracy和准确率召冋率都比较人,模型预测效果较好,泛化误差不大,可以用该模型进行预测分析。(3)给出一组预测数据,根据训练模型结果预测,写出预测结果。Confusionmatrix

8、3538o1Predictedlabel模型预测结果为:y_predict_newDATA:0011000101正确答案:解析:提示:测试数据结果计算・xls3.下表为购物篮事物数据:「购物蓝数据集・xlsx(1)设minsupport=40%,利用Apriori算法写出所有的频繁项目集,并指出其中支持度最大的二项频繁项目集。支持度排名项目1项目2支持度置信度提升度1{}->{e}0.80.812{}->{a}0.70.713{}・>{d}0.60.614{}->{b}0.60.617{}->{C}0.50.515{a

9、}・>{e}0.60.85711.07146{e}->{a}0.60.751.07148{d}->{e}

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。