基于海量数据的数据分析方案设计

基于海量数据的数据分析方案设计

ID:35593731

大小:82.00 KB

页数:7页

时间:2019-03-30

基于海量数据的数据分析方案设计_第1页
基于海量数据的数据分析方案设计_第2页
基于海量数据的数据分析方案设计_第3页
基于海量数据的数据分析方案设计_第4页
基于海量数据的数据分析方案设计_第5页
资源描述:

《基于海量数据的数据分析方案设计》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于海量数据的数据分析方案设计dataanalysisprogramdesignbasedonmassdata摘要:随着互联网,移动互联网和物联网的发展,谁也无法否认,我们来到了一个海量数据的时代。随着数据积累的越来越多,现在许多行业大多面临基于海量数据的分析问题,该文从基于海量数据挖掘的分析方法出发,利用河南省2005到2009年交通事故的数据,设计了一个数据分析方案。关键词:海量数据,数据挖掘,回归模型,方案Abstract:withthedevelopmentofInternet,mobileInternetanddevelopmentofInterneto

2、fthings,nobodycandenythatwecometoamassivedataera.Asdataaccumulatemoreandmore,manyindustriesarefacingproblemsbasedonlargeamountsofdataanalysis.ThispaperibasedontheanalysisofmassdataminingmethodofHenanprovincefrom2005to2009,usingthedataoftrafficaccidents,designesadataanalysisprogram.Key

3、words:massdata,datamining,regressionmodel,scheme一、引言随着信息技术的发展,人们积累的数据越来越多。事实上,数据本身是没有意义的,只有用以进行分析处理才真正起到作用。因此,可以说激增的数据背后更重要的是隐含的信息,人们希望能够对这些数据进行更高层次的分析,以便更好地利用这些数据。海量数据是发展趋势,对数据分析和挖掘也越来越重要,从海量数据中提取有用信息重要而紧迫,这便要求处理要准确,精度要高,而且处理时间要短,得到有价值信息要快,所以,对海量数据的研究很有前途,也很值得进行广泛深入的研究。在实际的工作环境下,许多人会

4、遇到海量数据这个复杂而艰巨的问题,它的主要难点有以下几个方面:数据量过大,数据中什么情况都可能存在;软硬件要求高,系统资源占用过高;要求很高的处理方法和技巧。基于海量数据的数据挖掘正在逐步兴起,面对着超海量的数据,一般的挖掘软件或算法往往采用数据抽样的方式进行处理,这样的误差不会很高,大大提高了处理效率和处理的成功率。数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取出隐含在其中的、可信、新颖、人们事先不知道的、但又是潜在有用的模式的高级处理过程。数据挖掘是由统计学、人工智能、数据库、可视化技术等多个领域相融合而形成的一个交叉学科。除了进行

5、关系和规则的描述之外,数据挖掘的一个很重要的任务是分析。根据在过去和现在的数据中寻找到的规律建模,这样的模式有时候也可以认为是以时间为关键属性的关联知识。一个数据挖掘系统可以自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是数据挖掘在交通事故中的应用,交通事故数据挖掘应用分析的主要作用有:可以分析出影响交通安全的诸因素及其影响的轻重程度,预测交通事故的发展趋势;发现和识别事故高发区域、交叉口和路段;可以分析交通事故成因、特征、规律及交通安全工作中的薄弱环节,明确交通安全管理工作的重点和对策等。一般情

6、况下,分析的基本数据是时间序列数据,也就是按照时间先后存放在数据库中的数据。时间序列预测法可用于短期、中期和长期预测。根据对资料分析方法的不同,又可分为:简单序时平均数法、加权序时平均数法、移动平均法、加权移动平均法、趋势预测法、指数平滑法、季节性趋势预测法、市场寿命周期预测法等。由于大量的时间序列是非平稳的,其特征参数和数据分布随着时间的推移而发生变化,因此,仅仅通过对某段历史数据的训练,建立单一的神经网络模型,还无法完成准确的建模任务。为此,人们提出了基于统计学和基于精确性的再训练方法,当发现现存模型不再适用于当前数据时,对模型重新训练,获得新的权重参数,建立

7、新的模型。也可以根据问题规模的不同采用并行算法的计算优势进行分析。二数据挖掘分析的过程(一)问题定义一个行业或者机构面临的数据挖掘需求总是多种多样的,在问题形成之前甚至需要多次研究问题本身,再由问题提炼出模型。这样,一个数据挖掘的使用者最先也是最重要的就是熟悉背景知识,弄清需求,要想充分发挥数据挖掘的价值,必须对目标要有一个清晰明确的定义,即决定到底想干什么。(二)获取数据资源,建立数据挖掘库要进行数据挖掘必须收集到要挖掘的数据资源。更多情况下,这些数据资源分布在不同的数据源里,因为大部分情况下需要预处理,修改这些数据,而且常会遇到采用外部数据的情况,所以应该尽量

8、将其收集到

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。