欢迎来到天天文库
浏览记录
ID:36847317
大小:5.34 MB
页数:43页
时间:2019-05-10
《大数据存储与处理-第五讲》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、推荐!ClouderaLive!基于HUE(HadoopUserExperience)的试验环境!可以试验Hive/Pig/Impala/Solr/Spark/Oozie/HBase/HDFS第2页Hbase简介!为什么需要HBase!HBase特性及实现原理!HBase操作的内部流程本节目录!为什么需要HBase!HBase特性及实现原理!HBase操作的内部流程Google应用场景!快速检索页面第5页具体需求!Google的结构化数据存储需求–低成本可扩展地处理以十亿为单位的数据表(海量)–众多的列
2、,但并非每列都有数据,且经常只访问很少的列(稀疏)–高吞吐量和高并发(快速)!HBase的原型-GoogleBigtableRDBMS能满足吗?…cacheparallelMapReduce+GFS能满足吗?…………………………………………………………………………………………………………com.cnn…………………………………………………………………………………………………………………………………………Map/Reducecom.cnn………?!MapReduce程序能满足高并发要求吗?!全文件扫描效率
3、行吗?答案!因为RDBMS和MapReduce不能满足要求海量结构化数据存储需求–众多的列,但并非每列都有数据,且经常只访问很少的列(稀疏)–低成本可扩展地处理以十亿为单位的数据表(海量)–高吞吐量和高并发(快速)!所以:–Bigtable–HBase本节目录!为什么需要HBase!HBase特性及实现原理!HBase操作的内部流程HBase面向列的、基于HDFS、高性能分布式数据库系统(≈)稀疏海量快速稀疏稀疏与HBase面向列的数据模型稀疏与HBase面向列的数据模型!提高访问少数列的效率!提高压缩
4、比稀疏与HBase面向列的数据模型value=Map(TableName,RowKey,ColumnKey,Version)!TableName–表名–字符串–数据表的标识!RowKey–行关键字–字符串–最大长度64KB–用来检索记录的主键!ColumnKey–列关键字–列族+限定词–字符串–数据以列族为准存储–列族需提前定义–限定词可使用时生成!Version–版本–适应同一数据在不同时间的变化(网页)–不同版本的同一数据按时间倒序排列,最新的在最前面HBase表实例行数12行关键字com.bbc.
5、wwwcom.bbc.wwwcom.cnn.wwwcom.cnn.wwwcom.cnn.wwwcom.cnn.wwwcom.cnn.www版本t2t1t7t6t5t4t3列族:contentsa1d4c3b2列族:anchoranchor:com.bbc.www=“BBC”anchor:cnnsi.com=“CNN”anchor:my.look.ca=“CNN.com”海量逻辑表到HDFS物理存储的映
6、射!关键:以列族为单位进行物理存储行关键字com.cnn.wwwcom.cnn.www版本t5t4列族:contentsd4c3com.cnn.wwwt3b2行关键字com.cnn.wwwcom.cnn.www版本t7t6列族:anchoranchor:cnnsi.com=”CNN”anchor:my.look.ca=”CNN.com”!行→列族=面→Store–一行数据看作一个面–一个列族看作一个Store–行由若干列族构成
7、–面是若干Store构成–Store即物理存储基本单元com.cnn.www的一行数据视为转换为两张物理存储表(Store)进行存储列族contents物理表列族anchor物理表HBase的存储架构-使用者!Client–HBase功能使用者–与Master间进行管理操作–与RegionServer间进行数据读写操作HBase的存储架构-协调者!Zookeeper–协同管理节点–分布式协作、分布式同步、配置管理–存储了Master的地址和RegionServer状态信息HBase的存储架构-管理者!M
8、aster–控制节点–管理对数据表的增删改和查询操作–调整RegionServer的负载均衡和Region分布–可有多个MasterHBase的存储架构-存储者!!!!RegionServer–处理数据读写请求–HDFS文件交互Region–表中的分区–多个Store–1个HLogStore–数据存储核心–MemStore/StoreFileHLog–保障可靠性–MemStore数据镜像持久化到文件逻辑表到物理存储-逐步拆解!Table→R
此文档下载收益归作者所有