快速构建高度可扩展且安全的大数据应用程序

快速构建高度可扩展且安全的大数据应用程序

ID:32877536

大小:2.08 MB

页数:28页

时间:2019-02-17

快速构建高度可扩展且安全的大数据应用程序_第1页
快速构建高度可扩展且安全的大数据应用程序_第2页
快速构建高度可扩展且安全的大数据应用程序_第3页
快速构建高度可扩展且安全的大数据应用程序_第4页
快速构建高度可扩展且安全的大数据应用程序_第5页
资源描述:

《快速构建高度可扩展且安全的大数据应用程序》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、快速构建高度可扩展且安全的大数据应用程序AWS上的大数据蔡国梁AWS解决方案架构师2018.01.10AWS上的大数据平台企业大数据应用现状–传统数据仓库SFTPEnterpriseDataWarehouse(EDW)企业大数据应用不断增长的需求及面临的挑战数据的指数级增长结构化/半结构化/非结构化难于扩展,且存在单点故障处理缓慢并且容易出错TransactionsBilling数据存储成为ETL和聚合的瓶颈ERPWeblogs关系型数据库很难满足需求系统实时性不高SensorDataInfrastructurelogs对运维

2、要求高Social数据湖-面向未来的大数据思想数据湖是大数据分析管道的重要组成部分,是存储了所有的源数据并可供所有人访问分析的统一空间提高利润用户行为市场开拓09客户满意度145品牌宣传地理位置数据收集数据存储数据处理和分析消费/展现库存优化供应链效率...社交关系数据湖vs数据仓库•数据湖存原始数据,不要求统一的格式,可供任意目的的分析•数据仓库存处理后的数据,格式统一,预设明确的分析目的AWS上的数据湖GlueAthena数据分析流程数据源数据收集数据存储数据处理和分析消费/展现数据存储数据源数据收集数据处理和分析消费/展现AWS上的

3、数据湖-AmazonS3简单易用高性能高扩展性安全Amazon高可用性低成本高耐久性集成性S3以低成本统一存储所有数据用于分析,包括结构化和非结构化的,内部的和外部的各类数据能够快速收集数据,不需要预先定义Schema通过分离计算和存储从而允许扩展分析过程所需的各个组件,同时可以同时对同一份数据并行进行多个分析数据收集数据源数据收集数据处理/分析消费/展现S3TransferAccelerationAWS上的实时流数据服务-AmazonKinesis实时完全托管可扩展Amazon可以实时接收、缓冲和处理数据,从而可以完全托管,不需要

4、管理任何基础设计,冗余可同时处理来自几十万个来源的任意数量的在几秒或几分钟内得出分析结果设计流数据,延迟非常低KinesisStreams数据处理-Becausedataisneverprefect数据处理数据源数据收集GlueAthenaLambdaEMRSparkEMRRedshift/SpectrumElasticsearchS3TransferAccelerationAmazonAIML/DLServices数据处理ETLAWS通过事件触发进行数据处理LambdaAWS完全托管的提取、转换和加载(ETL)服务,无服务器架构,可

5、生成Glue可自定义、可重复使用且可移植的Python代码Amazon完全托管的Hadoop平台,可运行Spark和Hive执行数据处理任务EMR数据处理ETLYourdataWebappdataAWSGLUEETLAmazonRDS构建数据目录OtherdatabasesAMAZONQUICKSIGHT生成和编辑转换AWSOnpremises安排和运行作业dataGlueStreamingdata•自动执行构建、维护和运行ETL作业•爬取数据源,识别数据格式,并提供架构和转换建议•能够与多种AWS产品进行集成•无服务器架构•代码

6、以开放式框架为基础数据分析数据处理数据源数据收集数据分析GlueAthenaLambdaEMRSparkEMR消费/展现Redshift/SpectrumElasticsearchS3TransferAccelerationAmazonAIML/DLServicesAWS上的Hadoop群集-AmazonEMR全托管Hadoop群集,通过S3解耦计算和存储AmazonEMRAmazonEC2节点EMR中间数据存储在本HDFLocal地磁盘或者HDFSSAmazonS3S3拥有11个9的耐久性,大规模扩展性MetadataAmazonEMR

7、Aurora/RDSMySQLAWS上的数据仓库-AmazonRedshift领导者节点统一的SQL访问端点JDBC/ODBC元数据存储优化查询计划协调查询执行计算节点Amazon10GigE本地列式存储(HPC)Redshift并行/分布式执行所有查询,数据导入备份,恢复,集群调整最小节点$0.25/小时,最大至2PB(压缩)DC1:SSD;容量从160GB到326TBIngestion/BackupBackupDS2:HDD;容量从2TB到2PBRestoreAWS上的数据仓库-AmazonRedshiftSpectrumQueryS

8、ELECTCOUNT(*)FROMS3.EXT_TABLEGROUPBY…JDBC/ODBC将计算和存储分离AmazonRedshift通过Redshift对S3中EB级数据直接进行SQL

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。