大数据实时处理技术以及其应用.pdf

大数据实时处理技术以及其应用.pdf

ID:52743635

大小:1.16 MB

页数:30页

时间:2020-03-30

大数据实时处理技术以及其应用.pdf_第1页
大数据实时处理技术以及其应用.pdf_第2页
大数据实时处理技术以及其应用.pdf_第3页
大数据实时处理技术以及其应用.pdf_第4页
大数据实时处理技术以及其应用.pdf_第5页
资源描述:

《大数据实时处理技术以及其应用.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、大数据实时处理技术及其应用李松林2013年4月Agenda•大数据的现状•业务场景思考•技术架构及其应用•Q&A关于京东关于京东(续)京东拥有覆盖企业全部价值链的稳定系统,通过持续优化打造开放平台,全面提升用户体验。网站客户前台营销数据管理财务系统供应商管理仓储配送管理管理大数据时代•3V:速度、容量、类型•数据的来源更加丰富–商品、订单、„–社交„–营销„•数据间的关联性更加复杂–人与人–商品与商品–„•数据的价值–时效性–新商业模式大规模数据处理更加容易ETL/企业数据仓库(Hive/Pig/MR)数据挖掘/建模(R、Mahout)搜索和推荐日

2、志存储…一些场景需要进一步的考量MapReduce批量处理•“NextClick”=•运营智能•风险控制延迟较长•互动分析无法满足用户的实时需求•„调度开销较大大数据包括三部分批处理与分析近实时分析实时流处理实时性离线准实时/实时实时处理时间分钟到小时毫秒到秒持续不断数据量TB-PBGB-TB持续编程模型MapReduceQueriesDAG用户分析师/开发者分析师/开发者开发者成本中高高应用ETL/数据挖掘/数据决策分析„预处理„/„大数据实时处理的思考模型性能服务大数据实时处理的思考(续)•模型–海量数据•数据量大•并发数高–多个数据源整合–预定

3、义好的数据模型•去规格化–数据任务依赖关系简单–推和拉的问题•拉比推好大数据实时处理的思考(续)•性能–高并发需求–大容量需求•GB–TB级后台数据处理吞吐–高速度需求•从数据产生到处理完成结果延迟要求到秒级•计算需要在短时间内完成–批处理预算–硬件支持•内存、CPU、网络–容错–水平扩展大数据实时处理的思考(续)•服务–关联获取价值,维度按需定制–互动分析、报表等完成价值交付–与其他在线生产系统进行数据对接(数据反哺)–计算即服务大数据实时处理架构财务数据集市数采销数据集市据生产数据库ELT企业数据仓库推送中罗盘数据集市离线计算心ELTETL数据分

4、析挖掘高速存取集群缓冲区数据集实时数据近实时分析集群流式计算集群模型日志系统同步持久化PUSH近实时计算PULL/PUSH企业消息总线订阅分布式消息系统高速存取集群缓存集群在线实时计算集群实时计算在线服务应用报表应用分析应用推荐应用...大数据实时处理技术•数据传输–日志(用户行为、„)–批量同步–消息队列–„•开源技术–Flume–Scribe–Kafka–„Kafka•Apache项目:http://kafka.apache.org/•一个分布式的发布/订阅消息系统•术语–Topics•消息分组–Brokers•消息存储–Producers•消息

5、生产者–Consumers•消息消费者大数据实时处理技术•几个点–解耦–缓冲–容错–透明–跨数据中心数据分发FlumeKafkaAgentAgentZookeeperStorm等SinkBroker(Topic1)Broker(Topic2)HDFS大数据实时处理技术•存储–大容量低速存储–高速存储–KV存储•开源NoSQL数据存储–Hadoop–HBase–Cassandra–MongoDB–Redis–„•数据库Sharding•合适的就是最好的大数据实时处理技术•计算–可加计算、不可加计算–实时数据的实时计算–实时数据的计算–数据的实时计算•开

6、源计算框架–Storm–Impala–„Impala•Cloudera公司贡献•一种通用的SQL查询引擎(Hive语法)•与Hadoop整合在一起SQLAppHiveHDFSNNStatestoreJDBC/ODBCMetastoreSQLrequestQueryPlannerQueryPlannerQueryPlannerQueryCoordinatorQueryCoordinatorQueryCoordinatorQueryExecutorQueryExecutorQueryExecutorHDFSDNHBaseHDFSDNHBaseHDFSDN

7、HBase大数据实时分析ReportIDEROLAPJDBCJDBCMondrianMondrianMondrian(OLAP)(OLAP)(OLAP)元数据JDBCHiveHDFSNNStatestore缓存MetastoreImpalaImpaladImpaladImpaladHDFSDataNodeDataNodeDataNodeM1M2M3大数据实时分析聚合表1聚合表2聚合表3明细事实表流式计算Storm•Twitter开源的分布式处理框架Spouts•基本概念Bolt–Streams(流)•元组序列–Spouts•流的源头–Bolts•Fu

8、nctions,Filters,Joins,Aggregations–Topologies•优点–可扩展、容

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。