空间大数据的处理、分析与信息挖掘

空间大数据的处理、分析与信息挖掘

ID:36693287

大小:7.01 MB

页数:54页

时间:2019-05-13

空间大数据的处理、分析与信息挖掘_第1页
空间大数据的处理、分析与信息挖掘_第2页
空间大数据的处理、分析与信息挖掘_第3页
空间大数据的处理、分析与信息挖掘_第4页
空间大数据的处理、分析与信息挖掘_第5页
资源描述:

《空间大数据的处理、分析与信息挖掘》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、空间大数据的处理、分析与信息挖掘Esri(中国)卢萌内容提要无限未来我们理解的大数据Hadoop是啥?空间大数据处理大数据分析与挖掘无限未来前言:黑白天鹅之战未来可预未来纯随测机代表人物:代表人物:艾伯特-拉斯洛·巴纳西姆·尼古拉拉巴西斯·塔勒布•匈牙利科学院外籍•纽约大学特聘教授院士•位列2009年Crainer•欧洲科学院院士Dearlove最具影响•美国东北大学教授力的商业思想家排代表作:《爆发》名第40位代表作:《黑天鹅》未来在手中看重什么?原因结果为什么因果是什么条件现象我们理解的大数

2、据数据密集型科学几千年前科学以实验为主,描述自然现象过去数百年2.2a4Gc出现了理论研究分支,利用模型和归纳2a3a最近数十年出现了计算分支,对复杂现象进行仿真今天:数据爆炸将理论、实验和计算仿真统一起来由仪器收集、由软件处理、由计算机存储科学家通过数据管理和分析的方式来研究科学。我们所理解的大数据Volume4VValueVolume数据量BigDataBigdataVariety速度产生变化处理传播速度Velocity多样性Value价值密度其他的V

3、VeracityVisualizationValidity精确可视化有效性VolatilityVolutionVariabilityVision易变性变异性想象力漩涡Verbalisers描述性大数据与传统数据数据结构及内容目标位置(Datastructure(Goals)(Location)andcontent)数据准备博客:blog.csdn.net/allenlu2008数据生命周期衡量(Data(Longevity)(Measurements)preparation)可重复性搜索:成本csdn卢萌

4、内省(Reproducibility)(Stakes)(Introspection)分析(Analysis)空间大数据遥感影像及其相应产品LBS空间数据时间数据唯一ID•附加的其他信息(可选)无处不在的LBSHadoop是啥?前提Hadoop不是万能的!!hadoop的来历Hadoop这个名词不是一个缩写,是一个虚构的名字,是卡廷的小公子给一头吃饱了的棕黄色大象取的名字。hadoop是个啥东西?Hadoop是Apache基金会的一个顶级项目,是一个可在商用硬件集群上对超大型数据集进行分布式存储和分析

5、的可扩展的开源框架。分布式存储分布式计算Hadoop生态系统示意图(1.0)BIETLToolsRDBMSReportingPigHive(SQL)Sqoop(DataFlow)MapReduceHbase(ColumnDB)Avro(Serialization)Zookeeper(coordination)HDFS(HadoopDistributedFileSystem)Hadoop生态系统示意图(2.0)PIGHiveAmbari,Avro,Oozie,Zookeeper,etcNonrelation

6、alDatabaseOtherYARNScriptQueryframeworkHcatalogOtherProjectsHbaseMetadataServicesSparkMapReduceDestributedProcessingYARNResourceSchedulingandNegotiationHDFS(HadoopDistributedFileSystem)HDFS(1.0)用户NameNodeMetadataDataNodeDataNodeDataNode数据1数据2HDFS(2.0)用户Na

7、meNameNode1Node2MetadataMetadataDataNodeDataNodeDataNode数据1数据2YARN是干嘛的?Yarn[英][jɑ:n][美][jɑrn]用户用户2.01.0n.纱,线;(尤指)毛线;故事;(旅行)轶事;vi.讲故事;ResourceJobTrackerManagerNodeNodeNodeTaskTrackerTaskTrackerTaskTrackerManagerManagerManagerApplicationTaskContainerTaskApp

8、licationTaskTaskContainerContainerTaskTaskContainerMasterMaster分布式计算的未来SparkSparkSpark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。Spark非常小巧玲珑,由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala空间大数据处理重复这个前提Hadoop不是万能的!!上帝的归上帝凯撒的归凯撒存储处理空

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。