大数据时代下的统计学理论和方法创新研究

大数据时代下的统计学理论和方法创新研究

ID:17943759

大小:52.18 KB

页数:11页

时间:2018-09-11

大数据时代下的统计学理论和方法创新研究_第1页
大数据时代下的统计学理论和方法创新研究_第2页
大数据时代下的统计学理论和方法创新研究_第3页
大数据时代下的统计学理论和方法创新研究_第4页
大数据时代下的统计学理论和方法创新研究_第5页
资源描述:

《大数据时代下的统计学理论和方法创新研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、湖南商学院学年论文(课程设计)湖南商学院学年论文题目学生姓名王国兴学号120330002学院数统学院专业班级统计1201班指导教师李梦觉职称教授年月湖南商学院学年论文(课程设计)大数据时代下的统计学理论和方法创新研究[内容摘要]从硅谷到北京,大数据的话题正在被传播。随着互联网时代的到来,人们的衣食住行都离不开网络,我们的行为、位置,甚至身体的每一点的变化都成为了可被记录和分析的数据。这些数据之庞大,我们难以想象。人类存储信息量的增长速度比世界经济的增长速度快4倍,而计算机数据处理能力的增长速度则比世界经济的增长速度快9倍。政府和企业都已经认识到数据的价值

2、,大数据相关的人才都成为了政府和企业的争夺对象。所以这对我们统计来说是一种优势的存在,那我们作为一名统计学习者,如何在大数据时代背景下深化统计学理论以及如何在统计学方法上进行创新成为了我们所值得关注的。本文将首先先对大数据的特征进行总体上的介绍其中包括四V特征,后我们再对经典的统计学理论和现有大数据时代背景下的统计学理论分别进行界定,并发现其存在的差异、变化。最后我们根据现有的情况对现有“大数据”时代背景下,我们将如何去拥抱“大数据”以及对其现有的统计方法如何改进、创新的探究。湖南商学院学年论文(课程设计)关键词:大数据、四V特征、统计学、相关关系、一、

3、大数据的特征大数据是一个比较抽象的概念,正如信息学领域大多数新兴概念,大数据至今尚未有明确的、统一的定义。我们首先可以从字面上的意思来理解一下,即是大的数据集,但是今天我们所面临的数据不仅仅是数值型数据那么简单,随着各个产业的数字化,尤其如今的淘宝,微博,微信,朋友圈的兴起,伴随而来的是庞大的数据集,全球的数据量呈幂次方爆炸式增长。例如IDC对其的定义为—大数据一般涉及2种或者2种以上数据形式。它收集超过100TB的数据,并且是高速、实时数据流;或者是从小的数据开始,但数据每年增长60%以上。这个定义给出了量化标准,但只强调数据量大,种类多,增长快等数据

4、的本身特征。当前较为统一的四个基本特征:数据规模大(Volume),数据种类多(Variety),数据要求处理速度快(Velocity),数据价值密度低(Value),即所谓的四V特性。(一)数据规模大大数据聚合在一起的数据是非常大的,根据IDC的定义来说至少要有超过100TB的可供分析的数据,数据量大是大数据的基本特征。下面我们可以来看一下前几年的数据量变化图,如图一湖南商学院学年论文(课程设计)图一资料来源:IDC报告人类存储信息量的增长速度比世界经济的增长速度快4倍,而计算机数据处理能力的增长速度则比世界经济的增长速度快9倍。我们可以把时下的信息洪

5、流与1439年前后古登堡发明印刷机时的信息爆炸形成对比。历史学家伊丽莎白丶爱森斯坦发现,1453—1503年,这50年之间大约有800万本书籍本印刷,比1200年之前君士坦丁堡建立以来整个欧洲所有的手抄书还要多。换言之,欧洲的信息存储量花了50年增长了一杯,而如今大约每三年就能增长一倍。我们可以试想现如今的信息爆炸式的增长。(一)数据类型繁多这种类型的多样性也让数据被分为结构化数据和非结构化数据。以往的数据尽管数量庞大,但通常是事先定义好的结构化数据。结构化数据便于计算机的储存、处理、查询的方向抽象的结果,结构化在抽象的过程中忽略一些在特定应用下可以不考

6、虑的细节,抽取了有用的信息。而随着互联网的飞速发展,非结构化数据大量涌现,非结构话数据没有统一的结构属性,难以用结构来表示,在记录上,储存上增加了难度。频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。同时,遍及工作、生活中的各个角落的传感器也时刻不断的产生各种半结构化、非结构化数据,这些结构复杂、种类繁多,同时规模有很大的的半结构、非结构数据逐渐成为社会的主流数据。(三)数据处理速度快要求数据的快速处理,是大数据区别于传统海量数据处理的重要特征之一。随着各种传感器和互联网络等信息获取、传播技术的飞速发展。数据的产生、发布也

7、变得越来越容易,产生数据的途径多,输出呈现爆炸式的增长,快速增长的数据量也要求输出处理的速度得到相应的提升,才能是数据得到有效的利用以及发挥数据应有的价值。人类存储信息量的增长速度比世界经济的增长速度快4倍,而计算机数据处理能力的增长速度则比世界经济的增长速度快9湖南商学院学年论文(课程设计)倍。高速描述的是数据被创建和移动的速度。在高速网络时代,通过基于实现软件性能优化的高速电脑处理器和服务器,创建实时数据流已成为流行趋势。企业不仅需要了解如何快速创建数据,还必须知道如何快速处理、分析并返回给用户,以满足他们的实时需求。IMSResearch关于数据创

8、建速度的调查,据预测,到2020年全球将拥有220亿部互联网连接设备。(四)数据

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。