欢迎来到天天文库
浏览记录
ID:59504050
大小:4.67 MB
页数:49页
时间:2020-09-11
《大数据处理与分析相关平台简介知识讲稿.pptx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、大数据处理与分析相关平台简介中国人民大学信息学院董兆安内容来自CSDN等互联网资源大数据及其主要特征2规模(Volume)、种类(Variety)、速度(Velocity)2001年,道格.莱尼(DougLaney)VolumeVolumeVarietyVolume模态多样VelocityVolume速度极快体量巨大文本视频图片音频到2020年,数据总量达40ZB,人均5.2TB分享的内容条目超过25亿个/天,增加数据超过500TB/天硬件、技术、数据不断进化4传统的数据处理ExternalDataSourcesEx
2、tractTransformLoadDataWarehouseIntegratedstorageDataprocessingUsersSQL数据分析的需求也逐渐提高从海量数据中快速获取有价值信息低延迟、高性能、分布式、可扩展、容错。6RTAPOLAPOLTP需求变化7Real-TimeNon-InteractiveBatchInteractiveOnlinesystemsRealtimeAnalyticsComplexeventprocessingDatapreparationIncrementalbatchproc
3、essingDashboardsOperationalbatchprocessingEnterprisereportsDataminingParameterizedReportsDrilldownVisualizationExploration0--5s5s--1m1m--1h1h+场景不同-工具不同-视角不同Hortonworks将应用需求进行了如下划分:实时应用场景(0~5s):Storm、S4、ClouderaImpala,ApacheDrill等;交互式场景(5s~1m):最好支持SQL,:ClouderaI
4、mpala、ApacheDrill、Shark等;非交互式场景(1m~1h):MapReduce、Hive、Pig、Stinger等;批处理场景(1h+)运行时间较长,处理数据量较大,对容错性和扩展性要求较高MapReduce、Hive、Pig、Stinger等。8大数据分析与处理架构——一个案例9IngestLandingandAnalyticsSandboxZoneIndexes,facetsHive/HBaseColStoresDocumentsInVarietyofFormatsAnalyticsMapRed
5、uceRepository,WorkbenchIngestionandReal-timeAnalyticZoneDataSinksFilter,TransformIngestCorrelate,ClassifyExtract,AnnotateWarehousingZoneEnterpriseWarehouseDataMartsQueryEnginesCubesDescriptive,PredictiveModelsModelsWidgetsDiscovery,VisualizerSearchAnalyticsandR
6、eportingZoneMetadataandGovernanceZone9Connectors大数据处理与分析技术数据采集数据处理数据存储统计分析数据挖掘模型预测数据可视化元数据管理10数据处理的几种模式转换TransformerConvertpayloadormodifyheaders过滤FilterDiscardmessagesbasedonbooleanevaluation路由RouterDeterminenextchannelbasedoncontent分割SplitterGeneratemultiplem
7、essagesfromone聚集AggregatorAssembleasinglemessagefrommultiple11几种平台介绍MPPHadoopstormspark12开源的大数据处理平台SQLonHadoopHortonworks:Tez、StingerCloudera:ImpalaFacebook:Hive,PrestoGoogle发布了Dremel和PowerDrillEMC推出Pivotal+HAWQ开源数据仓库brighthouse基于MySQL的数据仓库存储引擎13开源的大数据处理平台NO-Ma
8、pReduce系统微软的DAG任务计算模型DryadGoogle的图批量同步处理系统Pregel和增量式计算框架PercolatorYahoo!的数据流计算系统S4、NYU的共享内存处理系统PiccoloBerkeley的交互式实时处理系统Spark等等。NEWSQL系统VoltDBmySQL集群14Hadoop的版本1516IntelHado
此文档下载收益归作者所有