数据分析算法与模型(一).docx

数据分析算法与模型(一).docx

ID:58427092

大小:181.07 KB

页数:9页

时间:2020-05-12

数据分析算法与模型(一).docx_第1页
数据分析算法与模型(一).docx_第2页
数据分析算法与模型(一).docx_第3页
数据分析算法与模型(一).docx_第4页
数据分析算法与模型(一).docx_第5页
资源描述:

《数据分析算法与模型(一).docx》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、数据分析算法与模型模拟题(一)一、计算题(共4题,100分)1、 影响中国人口自然增长率的因素有很多,据分析主要因素可能有:(1)从宏观经济上看,经济整体增长是人口自然增长的基本源泉;(2)居民消费水平,它的高低可能会间接影响人口增长率。(3)文化程度,由于教育年限的高低,相应会转变人的传统观念,可能会间接影响人口自然增长率(4)人口分布,非农业与农业人口的比率也会对人口增长率有相应的影响。为了全面反映中国“人口自然增长率”的全貌,选择人口增长率作为被解释变量,以反映中国人口的增长;选择“国名收入”及“人均GDP”作为经济整体增长的代表;选择“居民消

2、费价格指数增长率”作为居民消费水平的代表。暂不考虑文化程度及人口分布的影响。 从《中国统计年鉴》收集到以下数据(见表1):表1    中国人口增长率及相关数据年份人口自然增长率(%。)国民总收入(亿元)居民消费价格指数增长率(CPI)%人均GDP(元)198815.731503718.81366198915.0417001181519199014.39187183.11644199112.98218263.41893199211.6269376.42311199311.453526014.72998199411.214810824.140441995

3、10.555981117.15046199610.42701428.35846199710.06780612.8642019989.1483024-0.8679619998.1888479-1.4715920007.58980000.4785820016.950.7862220026.45-0.8939820036.011.21054220045.873.91233620055.891.81404020065.381.516024 设定的线性回归模型为:        算法1多元线性回归.xlsx(1)求出模型中的各个参数,试从多个角度评价此线性回归

4、模型,并检验模型的经济意义;(2)检验模型中是否存在多重共线性问题(逐步回归),若有,试消除多重共线性。解:(1)首先进行数据预处理,数据经检查,无缺失值,接着将数据导入dataHoop平台中,进行异常值检验等分析,数据基本正常,但是数据存在多重共线性,多重共线性将在第二问中详述。然后对数据进行多元线性回归拟合,以人口自然增长率(Y)作为因变量,国民总收入(X1)、居民消费价格指数增长率(X2)和人均GDP(X3)作为自变量,得到拟合结果为:Y=14.7236+0.0003X1+0.0644X2-0.0052X3调整R方为0.8831,F检验的p值为

5、0,(常数项)t检验的p值为0,国民总收入t检验的p值为0.0427,居民消费价格指数增长率t检验的p值为0.1359,人均GDPt检验的p值为0.0243。该模型解释为在其他变量不变的情况下,国民收入每增长1亿元,则人口增长率随之增长0.0003%;在其他变量不变的情况下,居民消费价格指数增长率每增长1%,则人口增长率随之增长0.0644%;在其他变量不变的情况下,人均GDP每增长1元,则人口增长率随之降低0.0052%。居民消费价格指数增长率CPI与人口增长率呈正增长与现实情况不符,说明模型反映出的统计学意义与实际情况不完全相符,可能是因为自变量

6、之间存在共线性。(2)发现国民收入与人均GDP相关系数高达0.9996,两个变量间极高度相关,因此得到回归方程存在多重共线性。变量间的多重共性对基于最小二乘法的回归模型模拟结果有非常严重的影响,导致回归结果不准确。采用“逐步回归法”对模型进行优化消除变量间的多重共线性。分别对单个变量进行分析:国民总收入(X1):居民消费价格指数增长率(X2):人均GDP(X3):通过对比,X3的调整R方更高,且均通过检验,所以采用X3为基础变量;人均GDP(X3)和国民总收入(X1):人均GDP(X3)和居民消费价格指数增长率(X2):显然X1和X3的组合的调整R方

7、更大,且均通过了检验。人均GDP(X3)、国民总收入(X1)和居民消费价格指数增长率(X2):当加入X2后,虽然调整R方有了一定的增加,但是X2的假设检验并没有通过,所以采用X1和X3两个变量的方程。方程为:Y=15.7418+0.0004X1–0.0058X32、对近期上映的10部电影进行调查研究,抽取290人对这10部电影的评分(分值0~10分),结果如下表所示。(1)根据表中数据对这10部电影的评分进行因子分析,并解析各个因子的含义;(2)可否利用电影的评分数据对这290名观影者进行聚类分析?给出你的理由。算法2因子分析.xlsx解:(1)首先

8、计算所有变量的相关系数矩阵,从结果可以看出,大部分的相关系数均大于0.3,所以,此数据适合做因子分析。按因子

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。