大数据处理与分析相关平台简介知识讲稿.pptx

大数据处理与分析相关平台简介知识讲稿.pptx

ID:59504050

大小:4.67 MB

页数:49页

时间:2020-09-11

大数据处理与分析相关平台简介知识讲稿.pptx_第1页
大数据处理与分析相关平台简介知识讲稿.pptx_第2页
大数据处理与分析相关平台简介知识讲稿.pptx_第3页
大数据处理与分析相关平台简介知识讲稿.pptx_第4页
大数据处理与分析相关平台简介知识讲稿.pptx_第5页
资源描述:

《大数据处理与分析相关平台简介知识讲稿.pptx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、大数据处理与分析相关平台简介中国人民大学信息学院董兆安内容来自CSDN等互联网资源大数据及其主要特征2规模(Volume)、种类(Variety)、速度(Velocity)2001年,道格.莱尼(DougLaney)VolumeVolumeVarietyVolume模态多样VelocityVolume速度极快体量巨大文本视频图片音频到2020年,数据总量达40ZB,人均5.2TB分享的内容条目超过25亿个/天,增加数据超过500TB/天硬件、技术、数据不断进化4传统的数据处理ExternalDataSourcesEx

2、tractTransformLoadDataWarehouseIntegratedstorageDataprocessingUsersSQL数据分析的需求也逐渐提高从海量数据中快速获取有价值信息低延迟、高性能、分布式、可扩展、容错。6RTAPOLAPOLTP需求变化7Real-TimeNon-InteractiveBatchInteractiveOnlinesystemsRealtimeAnalyticsComplexeventprocessingDatapreparationIncrementalbatchproc

3、essingDashboardsOperationalbatchprocessingEnterprisereportsDataminingParameterizedReportsDrilldownVisualizationExploration0--5s5s--1m1m--1h1h+场景不同-工具不同-视角不同Hortonworks将应用需求进行了如下划分:实时应用场景(0~5s):Storm、S4、ClouderaImpala,ApacheDrill等;交互式场景(5s~1m):最好支持SQL,:ClouderaI

4、mpala、ApacheDrill、Shark等;非交互式场景(1m~1h):MapReduce、Hive、Pig、Stinger等;批处理场景(1h+)运行时间较长,处理数据量较大,对容错性和扩展性要求较高MapReduce、Hive、Pig、Stinger等。8大数据分析与处理架构——一个案例9IngestLandingandAnalyticsSandboxZoneIndexes,facetsHive/HBaseColStoresDocumentsInVarietyofFormatsAnalyticsMapRed

5、uceRepository,WorkbenchIngestionandReal-timeAnalyticZoneDataSinksFilter,TransformIngestCorrelate,ClassifyExtract,AnnotateWarehousingZoneEnterpriseWarehouseDataMartsQueryEnginesCubesDescriptive,PredictiveModelsModelsWidgetsDiscovery,VisualizerSearchAnalyticsandR

6、eportingZoneMetadataandGovernanceZone9Connectors大数据处理与分析技术数据采集数据处理数据存储统计分析数据挖掘模型预测数据可视化元数据管理10数据处理的几种模式转换TransformerConvertpayloadormodifyheaders过滤FilterDiscardmessagesbasedonbooleanevaluation路由RouterDeterminenextchannelbasedoncontent分割SplitterGeneratemultiplem

7、essagesfromone聚集AggregatorAssembleasinglemessagefrommultiple11几种平台介绍MPPHadoopstormspark12开源的大数据处理平台SQLonHadoopHortonworks:Tez、StingerCloudera:ImpalaFacebook:Hive,PrestoGoogle发布了Dremel和PowerDrillEMC推出Pivotal+HAWQ开源数据仓库brighthouse基于MySQL的数据仓库存储引擎13开源的大数据处理平台NO-Ma

8、pReduce系统微软的DAG任务计算模型DryadGoogle的图批量同步处理系统Pregel和增量式计算框架PercolatorYahoo!的数据流计算系统S4、NYU的共享内存处理系统PiccoloBerkeley的交互式实时处理系统Spark等等。NEWSQL系统VoltDBmySQL集群14Hadoop的版本1516IntelHado

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。