大数据存储与处理-第五讲

大数据存储与处理-第五讲

ID:36847317

大小:5.34 MB

页数:43页

时间:2019-05-10

大数据存储与处理-第五讲_第1页
大数据存储与处理-第五讲_第2页
大数据存储与处理-第五讲_第3页
大数据存储与处理-第五讲_第4页
大数据存储与处理-第五讲_第5页
资源描述:

《大数据存储与处理-第五讲》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、推荐!ClouderaLive!基于HUE(HadoopUserExperience)的试验环境!可以试验Hive/Pig/Impala/Solr/Spark/Oozie/HBase/HDFS第2页Hbase简介!为什么需要HBase!HBase特性及实现原理!HBase操作的内部流程本节目录!为什么需要HBase!HBase特性及实现原理!HBase操作的内部流程Google应用场景!快速检索页面第5页具体需求!Google的结构化数据存储需求–低成本可扩展地处理以十亿为单位的数据表(海量)–众多的列

2、,但并非每列都有数据,且经常只访问很少的列(稀疏)–高吞吐量和高并发(快速)!HBase的原型-GoogleBigtableRDBMS能满足吗?…cacheparallelMapReduce+GFS能满足吗?…………………………………………………………………………………………………………com.cnn…………………………………………………………………………………………………………………………………………Map/Reducecom.cnn………?!MapReduce程序能满足高并发要求吗?!全文件扫描效率

3、行吗?答案!因为RDBMS和MapReduce不能满足要求海量结构化数据存储需求–众多的列,但并非每列都有数据,且经常只访问很少的列(稀疏)–低成本可扩展地处理以十亿为单位的数据表(海量)–高吞吐量和高并发(快速)!所以:–Bigtable–HBase本节目录!为什么需要HBase!HBase特性及实现原理!HBase操作的内部流程HBase面向列的、基于HDFS、高性能分布式数据库系统(≈)稀疏海量快速稀疏稀疏与HBase面向列的数据模型稀疏与HBase面向列的数据模型!提高访问少数列的效率!提高压缩

4、比稀疏与HBase面向列的数据模型value=Map(TableName,RowKey,ColumnKey,Version)!TableName–表名–字符串–数据表的标识!RowKey–行关键字–字符串–最大长度64KB–用来检索记录的主键!ColumnKey–列关键字–列族+限定词–字符串–数据以列族为准存储–列族需提前定义–限定词可使用时生成!Version–版本–适应同一数据在不同时间的变化(网页)–不同版本的同一数据按时间倒序排列,最新的在最前面HBase表实例行数12行关键字com.bbc.

5、wwwcom.bbc.wwwcom.cnn.wwwcom.cnn.wwwcom.cnn.wwwcom.cnn.wwwcom.cnn.www版本t2t1t7t6t5t4t3列族:contentsa1d4c3b2列族:anchoranchor:com.bbc.www=“BBC”anchor:cnnsi.com=“CNN”anchor:my.look.ca=“CNN.com”海量逻辑表到HDFS物理存储的映

6、射!关键:以列族为单位进行物理存储行关键字com.cnn.wwwcom.cnn.www版本t5t4列族:contentsd4c3com.cnn.wwwt3b2行关键字com.cnn.wwwcom.cnn.www版本t7t6列族:anchoranchor:cnnsi.com=”CNN”anchor:my.look.ca=”CNN.com”!行→列族=面→Store–一行数据看作一个面–一个列族看作一个Store–行由若干列族构成

7、–面是若干Store构成–Store即物理存储基本单元com.cnn.www的一行数据视为转换为两张物理存储表(Store)进行存储列族contents物理表列族anchor物理表HBase的存储架构-使用者!Client–HBase功能使用者–与Master间进行管理操作–与RegionServer间进行数据读写操作HBase的存储架构-协调者!Zookeeper–协同管理节点–分布式协作、分布式同步、配置管理–存储了Master的地址和RegionServer状态信息HBase的存储架构-管理者!M

8、aster–控制节点–管理对数据表的增删改和查询操作–调整RegionServer的负载均衡和Region分布–可有多个MasterHBase的存储架构-存储者!!!!RegionServer–处理数据读写请求–HDFS文件交互Region–表中的分区–多个Store–1个HLogStore–数据存储核心–MemStore/StoreFileHLog–保障可靠性–MemStore数据镜像持久化到文件逻辑表到物理存储-逐步拆解!Table→R

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。