欢迎来到天天文库
浏览记录
ID:39580116
大小:5.31 MB
页数:74页
时间:2019-07-06
《亚马逊AWS大数据分析最佳实践》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、AWS大数据分析最佳实践郑进佳(Kenny)解决方案架构师亚马逊AWS议程•什么是大数据?•大数据的挑战?–数据产生–数据收集与存储–数据分析与计算–数据的展现与分享•成功案例•问与答什么是大数据?大数据应用场景防病毒精准营销油气分析及时推荐生物传感人口统计欺诈检测图片或视管道探测交易分析临床分析图片识别游戏用户频分析分析什么是大数据?多维度实时性数量大大数据的挑战大数据全过程AWS解决方案哪些工具可以在AWS上使用?哪个解决方案适合我?大数据分析生命周期数据产生数据收集和存储分析和计算展现和分享关系型数据NoSQL来服务器日志源CDN日志用户点击流
2、各种非结构化数据第三方数据(RSS)输入的数据类型Investindatacenters?数据产生低成本,数据收集和存储严重依赖硬件高I/O预先为容量付费高性能,前期投入高分析和计算可随时动态扩展弹性不足扩展性差展现和分享Kinesis示意图AmazonKinesisApp.1DataSources[Aggregate&De-Duplicate]AvailabilityAvailabilityAvailabilityZoneZoneZoneDataS3SourcesApp.2[MetricShard1DataExtraction]Shard2Sour
3、cesShardNDynamoDBApp.3AWSEndpoint[SlidingDataWindowSourcesAnalysis]RedshiftApp.4DataSources[MachineLearning]NextStepsforGREEAdProfileDBNextStepsforMediaMathBelkinAnalyticsDataIngestionwithAmazonKinesis解藕数据巴士---灵活性解藕数据巴士---灵活性数据结构与查询模式VS存储类型Structured–SimpleQueryStructured–Compl
4、exQueryNoSQLSQLAmazonDynamoDBAmazonRDSCacheSearchAmazonElastiCacheAmazonCloudSearchUnstructured–NoQueryUnstructured–CustomQueryCloudStorageHadoop/HDFSAmazonS3AmazonElasticMapReduceAmazonGlacierDataStructureComplexityQueryStructureComplexity数据特性:热,温,冷HotWarmColdVolumeMB–GBGB–TBP
5、BItemsizeB–KBKB–MBKB–TBLatencymsms,secmin,hrsDurabilityLow–HighHighVeryHighRequestrateVeryHighHighLowCost/GB$$-$$-¢¢¢LowAmazonGlacierAmazonAmazonAmazonElastiCacheDynamoDBCloudSearchStructureAmazonRDSHighHighLowRequestRateHighLowCost/GBLowHighLatencyLowHighDataVolume该用哪个存储?Amazo
6、nAmazonAmazonAmazonAmazonAmazonS3AmazonGlacierElastiCacheDynamoDBRDSCloudSearchEMR(HDFS)Averagemsmsms,secms,secsec,min,hrsms,sec,minhrslatency(~size)DatavolumeGBGB–TBsGB–TBGB–TBGB–PBGB–PBGB–PB(nolimit)(3TBMax)(~nodes)(nolimit)(nolimit)ItemsizeB-KBKBKBKBMB-GBKB-GBGB(64KBmax)(~ro
7、wsize)(1MBmax)(5TBmax)(40TBmax)RequestrateVeryHighVeryHighHighHighLow–VeryLow–VeryLowHighVeryHigh(nolimit)(nolimit)Storagecost$$¢¢¢¢$¢¢¢$/GB/monthDurabilityLow-VeryHighHighHighHighVeryHighVeryHighModerateHotDataWarmDataColdData实时数据流处理--使用案例•对于广告平台–用户在互联网上的行为能实时的影响其广告推送内容,在用户下一次
8、刷新页面时,就提供给用户新的广告•对于电商–用户的每一次收藏、点击、购买行为,都能被快速的归入他的个人模型中
此文档下载收益归作者所有