欢迎来到天天文库
浏览记录
ID:21042441
大小:5.46 MB
页数:38页
时间:2018-10-17
《大数据分析关键技术》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、大数据分析关键技术概述即席查询批量处理流式计算大数据计算分析模式分类即席查询Ad-HocQuery批量处理BatchProcessingMap/Reduce流式计算StreamComputing数据承载响应时间适用场景磁盘秒级(准实时)自然人交互式经营分析磁盘分钟级至小时级(准实时)事前/事后大批量数据处理内存(事件窗口非全量数据)秒级(实时)实时事件分析实时风险干预针对不同的业务领域,需要采用不同的数据计算分析方式,快速发现数据价值。即席查询即席查询(AdHoc)是用户根据自己的需求,灵活的选择查询条件,系统能够根据用户的选择生
2、成相应的统计报表。即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的,而即席查询是用户自定义查询条件。即席查询StorageDistributeFileSystemColumnDatabaseResourceManagementParallelComputeFrameworkSQLSyntax+ComputeFrameworkSQLSyntaxMetaDataBatchProcessingAd-HocQuery实时性:高批量处理StorageDistributeFileSystemColumnDatabaseResour
3、ceManagementParallelComputeFrameworkSQLSyntax+ComputeFrameworkSQLSyntaxMetaDataBatchProcessingAd-HocQueryMapReduce是一种编程模型,用于大规模数据集的并行批量计算。概念Map和Reduce当前的主流实现是指定一个Map函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce函数,用来保证所有映射的键值对中的每一个共享相同的键组。形成这种模型的原因是:数据的分布式存储、计算资源的分布式、并行计算减少计算时长。批量
4、处理实时性:低流式计算流数据的实时计算注重对流数据的快速高效处理、计算和分析。其特点是计算过程数据不落地,所有数据在内存中完成。其计算模型是根据规则生成容器,当数据流经过容器时,实时产生分析结果。流式计算InputAdapterOutputAdapterEngineClusterClusterManagementRuleRepositoryNoSQL实时性:高概述即席查询批量处理流式计算ImpalaNodeImpala架构ImpaladQueryPlannerQueryCoordinatorQueryExecEngineCommo
5、nHiveQL&InterfaceMetaDataSQLJDBCHiveMetaStoreHDFSNNStateStoreImpaladQueryPlannerQueryCoordinatorQueryExecEngineImpaladQueryPlannerQueryCoordinatorQueryExecEngineDataHDFSDNHBaseDataHDFSDNHBaseDataHDFSDNHBaseImpalaNodeImpalaNodeLocalDirectReadsThriftHive架构DataHDFSDNTask
6、TrackerJobTrackerNameNodeHadoopHive(OverHadoop0.20.X)SQLJDBCWUIThriftServerDriver(Compiler,Optimizer,Executor)MetaStoreThriftServer:JDBC通过ThriftServer连接到Hive。ThriftServer连接MetaStore来读取hive的元数据信息。MetaStore:在关系型数据库中存放表/分区/列元数据,可以低延迟的快速的访问到需要的元数据信息。Driver/QueryCompiler/E
7、xecutionEngine:客户端提交的HiveSQL首先进入Driver,然后Driver会为此次HiveSQL的执行创建一个Session,Driver维护整个session的生命周期。Driver首先将HiveSQL传送给QueryCompiler,然后由QueryCompiler来对用户提交的HiveSQL进行编译/检查/优化并最终生成MapReduce任务。ExecutionEngine会与Hadoop进行交互,将MapReduce任务交给Hadoop来执行,并从Hadoop取得最终的执行结果,并返回给用户。解析Hiv
8、eSQL之后生成所MapReduce任务,在运行中访问元数据信息时,将直接读取生成的物理计划时产生的plan.xml,此文件会被放入Hadoop的分布式缓存中,,MapReduce任务可以从分布式缓存中获得相应的元数据。Impala相对于Hive的
此文档下载收益归作者所有