大数据应用技术介绍

大数据应用技术介绍

ID:21084433

大小:2.86 MB

页数:37页

时间:2018-10-17

大数据应用技术介绍_第1页
大数据应用技术介绍_第2页
大数据应用技术介绍_第3页
大数据应用技术介绍_第4页
大数据应用技术介绍_第5页
资源描述:

《大数据应用技术介绍》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、大数据应用技术介绍2014年2月Hadoop生态系统Hadoop生态系统SubProject描述common分布式文件系统和通用I/O的组件与接口(序列化,JavaRPC和持久化数据结构)Avro支持高效的跨语言RPC和持久数据存储的序列化系统MapReduce分布式数据处理模型和执行环境,运行在大型商用机集群HDFS分布式文件系统,用于大型商用机集群PIGPig是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。Hive分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据,

2、并提供基于SQL的查询语言(由运行时引擎翻译成MapReduce作业)Hbase分布式、按列存储的数据库。HBase使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询(随机读取)ZooKeeper分布式、可用性高的协调服务。提供类似分布式锁的基础服务。Sqoop在数据库和HDFS之间高效传输数据的工具Flume分布式、可靠、和高可用的海量日志聚合的系统。ChukwaChukwa是基于Hadoop的大集群监控系统,由yahoo贡献。Hadoop介绍HDFSMapReduceHDFS特点存储大文件百兆以上级别文件百万级文件由于亿级别文件流式处理数据一次写多次多模式支持追加操作

3、廉价的硬件环境普通pcserver组成集群环境HDFS缺点低延时读操作高吞吐量而非低延时Hbase解决了这个问题大量小数据文件最好每个文件大于100M多次写只支持一次写只支持在文件尾部添加,不支持随机写HDFS部署结构HDFS读写过程MapReduce部署结构JobTracker管理集群资源和Job调度TaskTracker管理Task运行MapReduce计算模型Inputk1,v1Mapk2,v2Reducek3,v3OutputMapReduce扩展接口InputFormatMapperPartitionerReducerOutputFormatMapReduceMapReduce实例M

4、apReduce内部结构Hadoop2.0引入一个新的资源管理系统YARNHDFS单点故障得以解决HDFSFederationHDFS快照通过NFS访问HDFS支持Window系统Hadoop1VSHadoop2集群资源管理Hadoop介绍Yarn运行原理图Hbase介绍1高可靠性2高效性3面向列4可伸缩5可在廉价PCServer搭建大规模结构化存储集群Hbase体系结构HBase系统架构图HBase部件说明Client:使用HBaseRPC机制与HMaster和HRegionServer进行通信Client与HMaster进行通信进行管理类操作Client与HRegionServer进行数据

5、读写类操作Zookeeper:ZookeeperQuorum存储-ROOT-表地址、HMaster地址HRegionServer把自己以Ephedral方式注册到Zookeeper中,HMaster随时感知各个HRegionServer的健康状况Zookeeper避免HMaster单点问题HMaster:HMaster没有单点问题,HBase中可以启动多个HMaster,通过Zookeeper的MasterElection机制保证总有一个Master在运行 主要负责Table和Region的管理工作:1管理用户对表的增删改查操作2管理HRegionServer的负载均衡,调整Region分布3

6、RegionSplit后,负责新Region的分布4在HRegionServer停机后,负责失效HRegionServer上Region迁移Table&RegionTable随着记录增多不断变大,会自动分裂成多份Splits,成为Regions一个region由[startkey,endkey)表示不同region会被Master分配给相应的RegionServer进行管理HregionServer-ROOT-&.META..META.记录用户表的Region信息,同时,.META.也可以有多region-ROOT-记录.META.表的Region信息,但是,-ROOT-只有一个regionZ

7、ookeeper中记录了-ROOT-表的location客户端访问数据的流程:Client->Zookeeper->-ROOT-->.META.->用户数据表多次网络操作,不过client端有cache缓存HBase数据模型RowKey:Table主键,Table中记录按照RowKey排序Timestamp:    每次对数据操作对应的时间戳,也即数据的versionnumberColumnFam

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。