欢迎来到天天文库
浏览记录
ID:5351900
大小:21.49 MB
页数:50页
时间:2017-12-08
《Hadoop与空间大数据挖掘分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、欢迎光临Hadoop与空间大数据挖掘分析易智瑞(中国)卢萌内容提要数据统治的世界大数据与空间大数据Hadoop与ArcGIS的碰撞数据的掘金之旅我们的大数据梦数据统治的世界GIS-TransformingourWorld文明载体的演化数字天然文字印刷电子化数字化生存的时代数字化带来的信息爆炸名称:亚历山大图书馆时间:始建于托勒密一世(约公元前367-前283年)说明:是世界上最古老的图书馆之一。馆内收藏了贯穿公元前400-前300年时期的手稿,拥有最丰富的古籍收藏,有据可考的图书超过50000卷。号称“收集全世界的书”,实现“世界知识总汇”的梦想。谷歌数字化图书计划名称:谷
2、歌数字化图书计划时间:2004年说明:2004年,谷歌携手哈佛大学、斯坦福大学、密歇根大学、牛津大学和纽约公共图书馆,共推图书数字化,到2010年,已经完成了2000万册数字化图书,几乎相当于人类书写文明的15%。数字统治着我们的世界大数据与空间大数据GIS-TransformingourWorld大数据的起源最早是由天文学和基因学创造出了“大数据”这一概念。——《自然》2008年《大数据专刊》一张哈勃望远镜捕捉下来的高清相片,高达数十个G字节早期的大数据早期,这个概念是指需要处理的信息量过大,已经超出了一般电脑在处理数据时所能使用的内存量。大数据与海量数据大数据海量数据4V特性V
3、olume数据量Velocity多样性Variety速度Value价值数据量Volume1,128,242XY(32bit)(32bit)68MB多样性Variety缺省属性值连通性规则属性值取值域关联规则分割/合并方针拓扑规则FeaturedatasetTableFeatureclassViewRastercatalogRasterdatasetMultipatchMosaicdatasetSchematicdatasetRelationshipclassLASdatasetTopologyPythonToolboxGeometricnetworkAddressLocator
4、ToolboxNetworkdatasettoolsetScriptTerrainToolModelParcelFabricSpatialETL多维的数据视角速度Velocity并行处理因子互联网公司的数据洪流Google每天需要处理超过24PB的数据——等于美国国家图书馆书籍总量的上千倍Facebook每天更新的相片超过1000万张,每天人们发送的“赞”或者书写的评论超过三十亿次。Twitter每天发布的微博超过4亿条。价值Value“今天,地理空间信息被越来越多的企业认为是企业的战略资产。地理空间信息的处理、存储和分析已成为商务智慧的重要组成部分。”---JackDange
5、rmondHadoop与ArcGIS的碰撞GIS-TransformingourWorld更多或者更大古代,人们用牛来拉重物。当一头牛拉不动一根圆木时,他们想的并不是培育更大更壮的牛。同样,我们也不需要动辄使用超级计算机,而应试着结合使用更多计算机系统。格蕾丝·莫里·霍珀(GraceMurrayHopper)(1906--1992)谷歌的廉价PC集群Google通过他天才的软件架构设计,把成千上万台普通的PC机做成了一个廉价大型的集群,用以处理他面向“星球”级别的搜索服务。UtahDataCenter名称:UtahDataCenter(犹他数据中心)全称:IntelligenceCo
6、mmunityComprehensiveNationalCybersecurityInitiativeDataCenter(情报体系综合性国家计算机安全计划数据中心)所属机构:NAS(美国国家安全局)不得不说的hadoophadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop生态系统示意图BIETLToolsRDBMSReportingPigHive(SQL)Sqoop)(DataFlow)noti)aMapReduce(JobScheduling/Executionnin
7、otidrSystem)aozliocia(rHbase(ColumnDB)reeSp(eorevkAooHDFSZ(HadoopDistributedFileSystem)HDFS用户NameNodeMetadataDataNodeDataNodeDataNode数据1数据2Hadoop处理原理假设系统每秒处理4000个文件10000秒处理4千万约为2.7小个文件=时处理400万约为17分=切个文件钟分成处理400万约为17分结处理4千万十个文件=钟果台
此文档下载收益归作者所有