中国大数据与统计学发展的需求预测模型

中国大数据与统计学发展的需求预测模型

ID:27537904

大小:70.62 KB

页数:5页

时间:2018-12-04

中国大数据与统计学发展的需求预测模型_第1页
中国大数据与统计学发展的需求预测模型_第2页
中国大数据与统计学发展的需求预测模型_第3页
中国大数据与统计学发展的需求预测模型_第4页
中国大数据与统计学发展的需求预测模型_第5页
资源描述:

《中国大数据与统计学发展的需求预测模型》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中国大数据与统计学发展的需求预测模型摘要:大数据是21世纪的热点话题之一,统计学是传统的数据分析学科。利用百度指数提供的“用户关注度”功能,本文选取2012年-2016年5年260周的百度周平均搜索指数为研究对象,以百度搜索指数来反映社会关注热度,研宄大数据与统计学关注热度之间有无相关性,以及大数据搜索指数发展的趋势变化。根据图形分析与相关系数的计算,可知人数据与统计学搜索热度呈现正相关关系,该关系线性程度不大,多为非线性关系。根据大数据的季平均搜索指数、每四周平均搜索指数的变化趋势研究表明,大数据搜索指数不存在明显季节性,存在明显的正趋势性;其搜索?岫茸?2012年初至2

2、015年2季度以来呈明显上升趋势,其后增长速率放缓,呈现更为显著的波动性,由此可知2015年2季度为其明显的一个转折点,符合其发展趋势的模型有修正指数模型,以及龚珀兹曲线模型和皮尔曲线模型这两个生长曲线模型,结果显示三个模型的拟合度均较理想,其中龚珀兹曲线的拟合度最高。根据拟合结果,从大数据搜索指数反映的社会关注热度来看,大数据搜索指数的发展己趋于饱和趋势,其饱和值为4300左右。关键词:大数据;统计学;百度指数;趋势外推屮图分类号:F27文献识别码:A文章编号:1001-828X(2017)001-0000-02引言现代社会,数据量呈爆炸式增长趋势,数据已经渗透到当今每一

3、个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。2012年以来,大数据一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。而统计学作为传统的数据分析方法,在拥有海量数据的现代社会既有着巨大的机遇,但由于大数据突破了传统统计学关于样木和总体界定等等限制,也对传统统计学的分析方法提出了前所未有的冲击和挑战。在现实生活中,并没有一门基于大数据的专业产生,各大企业往往通过招收统计学、计算机、数学等相关专业的人才来满足其大数据分析工作的要求,尽管如此,关于大数据的热

4、门是否捧热了统计学之类的相关学科的说法一直众说纷纭;此外经过了几年的对大数据关注的大热,市场逐渐对其问归理性,其至出现了“大数据泡沫”这样的质疑声音。本文借助百度搜索指数,对2012年-2015年每一周大数据、统计学两词条的反映其关注热度的搜索指数进行定性、定量分析,实现以下冃的:观察从百度搜索指数中反映出的人们对于大数据、统计学度的变化趋势,了解在人们关注度方面二者有无相关性、有怎样的相关性,即大数据的大热有没有带来统计学关注度的变化。通过建立统计模型,观察大数据关注热度5年來的变化,了解现实中其在关注度发展过程屮所处的阶段,即现实屮对大数裾的关注依然处于上升阶段还是己经

5、趋于饱和。采用定量、定性结合的分析方法,将统计学和人数据的搜索指数时间序列作线图,并计算线性相关系数,观察两者的变化规律,并计算两者有无线性相关关系。为满足消除随机性波动和保留足够数据量的需要,分别计算大数据搜索指数的每四周、每季度加权平均值。观察图形有无季节性、周期性波动;观察图形是否存在转折点,以此为基础选择统计模型。根据图形识别的结果,建立可能的统计模型,并通过比较R方值的方法来选择适当的模型。一、中国统计学发展与大数据发展的相关性分析用横坐标表示周次,纵坐标表示搜索指数,将人数据和统计学的搜索指数时间序列在一个图中分别做折线图,从图像中可以看出,57周以前,统计学的

6、搜索热度大于大数据的搜索热度,57周以后,大数据搜索热度逐渐超过统计学搜索热度。90周之后,大数裾和统计学的变动趋势呈现一定的相似性,例如都在214周时达到谷值,而后回升。在178周大数据搜索达到峰值,182周统计学搜索量达到峰值,在此期间统计学的增长略落后于大数据的增长,但是分布的形状大体一致。2.季平均值线性相关系数=0.292112357结果分析:两组数裾的线性相关程度都不高,其屮季平均线性相关系数略高于周平均线性相关系数。说明大数据与统计学的搜索指数之间并不存在明显的线性相关关系,但是从图中看出二者变化趋势具有相似性,因此猜测二者可能具有某种非线性相关关系。因为相关

7、关系并不等于因果关系,因此对于如上结果我们做出两种假设:在90周以后,统计学的分布类似并且略落后于大数据的增长,这可能是由于人们对于大数据的关注,引发了人们对于统计学这个相关学科的关注。两者类似的分布形态,可能是由于全国所有用户搜索频次的周期性、随机性变动所引致的,大数据、统计学搜索指数变动之间并没有直接的因果关系。二、屮国大数据需求量预测模型由于原始数据有260周,波动性过大,为了得到更为准确的结论,我们仅对其按每季度、每四周两种方式计算加权平均值得到的时间序列作讨论,其目的是(1)平滑随机波动;(2)判定按每季

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。