基于大数据的统计分析模型设计

基于大数据的统计分析模型设计

ID:21868791

大小:53.50 KB

页数:6页

时间:2018-10-25

基于大数据的统计分析模型设计_第1页
基于大数据的统计分析模型设计_第2页
基于大数据的统计分析模型设计_第3页
基于大数据的统计分析模型设计_第4页
基于大数据的统计分析模型设计_第5页
资源描述:

《基于大数据的统计分析模型设计》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于大数据的统计分析模型设计统计是利用尽可能少的局部样本数据来发现总体规律,处理对象往往数据规模小且数据结构单一。在大数据环境下,面临海量数据的采集与统计,传统方法已无法满足大规模数据集处理。基于Hadoop系统,利用其分布式存储和并行处理机制,设计了大数据环境下的统计分析模型,从海量数据中提取出有用的信息特征,实现数据资源共享,为相关部门决策提供信息服务。0引言随着统计数据规模的快速增长,数据特征日趋复杂,数据收集渠道多样,统计学相关领域研究已进入大数据时代。如何高效收集样本数据、挖掘信息,从海量数据中提取有用的信

2、息特征,将信息及时提供给相关部门决策,成为当前统计学研究热点之一。与国外相比,我国在统计分析工作中存在信息资源整合程度不高、数据共享匮乏、信息不完整等问题。随着大数据时代的到来,对大数据分析与挖掘的研究和应用越来越重视,大数据的挖掘与分析将帮助统计部门在有效合理的时间内采集、处理、管理与分析海量数据。目前政府部门间借助政务平台可以实现数据资源共享,但是企业与政府间缺乏数据的分享平台,造成了信息隔离,对此,统计部门要构建起全方位的海量数据共享和分布式存储的安全统计分析平台,实现跨地区的统计信息交流,满足海量信息数据的实

3、时分享和处理。1大数据大数据是一种大规模的数据集合,数据分析人员无法在一定时间内用一般软件对其进行提取、处理、分析和管理。处理大数据的关键技术包括大规模数据集的并行处理技术、分布式数据库、分布式文件存储与处理系统、数据挖掘、云计算等。大数据具有5V特点:Volume(体量浩大)、Variety(类型多样)、Velocity(生成快速)、Veracity(真实性高)、Value(价值巨大)。1.1云计算云计算(Cloudputing)是传统信息技术发展融合的产物,基于效用计算(Utilityputing)、并行计算(P

4、arallelputing)、分布式计算(Distributedputing),它提供便捷的、可用的、按需付费的X络访问。云计算平台可以提供IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务),同时负责数据安全、分布式X络存储、虚拟化、负载均衡、热备份冗余等,用户在使用资源时不需考虑底层基础架构。大数据应用不在于掌握庞大的数据信息,而在于对获取的数据进行专业化处理,以挖掘出数据的价值。大数据处理任务无法用单机串行计算方式处理,必须采用分布式架构进行计算。其特点在于依托云计算的分布式处理、云存储、

5、分布式数据库和虚拟化技术对海量数据进行挖掘。1.2大数据处理技术1.2.1大数据研究现状Science、Nature等国际顶级学术出专刊探讨了大数据处理与分析研究,介绍海量数据给社会生产和人们生活带来的挑战和机遇,学者们断言:“数据将是未来举足轻重的资源。在应用方面,目前已有很多企业开始做大数据处理的相关研究,IBM、谷歌、雅虎、亚马逊等公司纷纷提出自己的大数据处理架构和计算模式。谷歌首先提出了分布式存储系统GFS文件系统、大型分布式数据库BigTable。2012年美国政府斥资2亿美元启动了大数据研究和发展计划,大

6、力发展数据信息化基础设施建设。1.2.2大数据处理关键技术处理和分析大数据的关键在于具备分布式存储功能和强大的计算能力,数据处理的基础在于数据存储,数据分析的关键在于强劲的处理能力。Hadoop是一个可扩展、可靠、开源的分布式计算系统,该框架能够实现在计算机集群中用简单的计算模式处理海量数据,同依赖高性能服务器相比,Hadoop扩展性较好,同时集群中的节点都可以提供本地存储和计算。1.3基于大数据的统计分析研究统计是一项数据处理工程,面对大数据集的处理,统计样本变大、数据特征复杂等使得统计工作也变得繁琐,而数据挖掘是

7、从大量数据中取得有用信息的过程,利用现代信息技术及挖掘算法,可以高效地对有用数据获取与处理。不妨将数据挖掘理解为一个大数据状态下精确处理数据的统计模型,对挖掘后的数据再引入统计学的思想进行相关数据处理与分析,将两种方法有机结合起来。图1大数据环境下的统计工作基础架构Hadoop为统计分析工作提供了一个稳定可靠的分析系统和共享存储,它包含两个核心技术:MapReduce和HDFS。MapReduce实现数据的处理和分析,HDFS负责数据的共享存储。如图1所示,大数据环境下,统计工作的基本架构包含数据采集中心和统计分析处

8、理中心。数据采集中心主要是通过部署在云计算环境下的服务器集群去完成数据采集工作,数据主要存放在HDFS分布式数据库中;统计管理部门设立总的服务器集群,为保证系统的可扩展性,还可以将基层的服务器随时纳入该集群中,利用MapReduce机制分配和处理计算任务;统计分析处理中心主要是智能算法池,通过算法的应用对采集到的数据进行分析。2基于Hadoop

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。