chapter4-厦门大学-林子雨-大数据技术原理与应用-第四章-分布式数据库hba

chapter4-厦门大学-林子雨-大数据技术原理与应用-第四章-分布式数据库hba

ID:36290628

大小:2.91 MB

页数:41页

时间:2019-05-08

chapter4-厦门大学-林子雨-大数据技术原理与应用-第四章-分布式数据库hba_第1页
chapter4-厦门大学-林子雨-大数据技术原理与应用-第四章-分布式数据库hba_第2页
chapter4-厦门大学-林子雨-大数据技术原理与应用-第四章-分布式数据库hba_第3页
chapter4-厦门大学-林子雨-大数据技术原理与应用-第四章-分布式数据库hba_第4页
chapter4-厦门大学-林子雨-大数据技术原理与应用-第四章-分布式数据库hba_第5页
资源描述:

《chapter4-厦门大学-林子雨-大数据技术原理与应用-第四章-分布式数据库hba》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、厦门大学计算机科学系2015年版林子雨厦门大学计算机科学系E-mail:ziyulin@xmu.edu.cn主页:http://www.cs.xmu.edu.cn/linziyu第四章分布式数据库HBase(PPT版本号:2015年6月第1.0版)《大数据技术原理与应用》http://dblab.xmu.edu.cn/post/bigdata温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字提纲4.1概述4.2HBase访问接口4.3HBase数据模型4.4HBase的实现原理4.5HBase运行机制4.6HBase编程实践欢迎访问《大数据技术原理与应用》教材官方网站

2、:http://dblab.xmu.edu.cn/post/bigdata本PPT是如下教材的配套讲义:21世纪高等教育计算机规划教材《大数据技术原理与应用——概念、存储、处理、分析与应用》(2015年6月第1版)厦门大学林子雨编著,人民邮电出版社ISBN:978-7-115-39287-94.1概述4.1.1从BigTable说起4.1.2HBase简介4.1.3HBase与传统关系数据库的对比分析4.1.1从BigTable说起BigTable是一个分布式存储系统利用谷歌提出的MapReduce分布式并行计算模型来处理海量数据使用谷歌分布式文件系统GFS作为底层数据存储采用Ch

3、ubby提供协同服务管理可以扩展到PB级别的数据和上千台机器,具备广泛应用性、可扩展性、高性能和高可用性等特点谷歌的许多项目都存储在BigTable中,包括搜索、地图、财经、打印、社交网站Orkut、视频共享网站YouTube和博客网站Blogger等4.1.2HBase简介HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌BigTable的开源实现,主要用来存储非结构化和半结构化的松散数据。HBase的目标是处理非常庞大的表,可以通过水平扩展的方式,利用廉价计算机集群处理由超过10亿行数据和数百万列元素组成的数据表图4-1Hadoop生态系统中HBase与其他部

4、分的关系4.1.2HBase简介表4-1HBase和BigTable的底层技术对应关系BigTableHBase文件存储系统GFSHDFS海量数据处理MapReduceHadoopMapReduce协同服务管理ChubbyZookeeper4.1.3HBase与传统关系数据库的对比分析HBase与传统的关系数据库的区别主要体现在以下几个方面:(1)数据类型:关系数据库采用关系模型,具有丰富的数据类型和存储方式,HBase则采用了更加简单的数据模型,它把数据存储为未经解释的字符串(2)数据操作:关系数据库中包含了丰富的操作,其中会涉及复杂的多表连接。HBase操作则不存在复杂的表与表

5、之间的关系,只有简单的插入、查询、删除、清空等,因为HBase在设计上就避免了复杂的表和表之间的关系(3)存储模式:关系数据库是基于行模式存储的。HBase是基于列存储的,每个列族都由几个文件保存,不同列族的文件是分离的4.1.3HBase与传统关系数据库的对比分析HBase与传统的关系数据库的区别主要体现在以下几个方面:(4)数据索引:关系数据库通常可以针对不同列构建复杂的多个索引,以提高数据访问性能。HBase只有一个索引——行键,通过巧妙的设计,HBase中的所有访问方法,或者通过行键访问,或者通过行键扫描,从而使得整个系统不会慢下来(5)数据维护:在关系数据库中,更新操作会

6、用最新的当前值去替换记录中原来的旧值,旧值被覆盖后就不会存在。而在HBase中执行更新操作时,并不会删除数据旧的版本,而是生成一个新的版本,旧有的版本仍然保留(6)可伸缩性:关系数据库很难实现横向扩展,纵向扩展的空间也比较有限。相反,HBase和BigTable这些分布式数据库就是为了实现灵活的水平扩展而开发的,能够轻易地通过在集群中增加或者减少硬件数量来实现性能的伸缩4.2HBase访问接口表4-2HBase访问接口类型特点场合NativeJavaAPI最常规和高效的访问方式适合HadoopMapReduce作业并行批处理HBase表数据HBaseShellHBase的命令行工具

7、,最简单的接口适合HBase管理使用ThriftGateway利用Thrift序列化技术,支持C++、PHP、Python等多种语言适合其他异构系统在线访问HBase表数据RESTGateway解除了语言限制支持REST风格的HttpAPI访问HBasePig使用PigLatin流式编程语言来处理HBase中的数据适合做数据统计Hive简单当需要以类似SQL语言方式来访问HBase的时候4.3HBase数据模型4.3.1数据模型概述4.3.2数据模型相关概念4.3.3

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。