分布式数据库hba

分布式数据库hba

ID:25288568

大小:8.72 MB

页数:99页

时间:2018-11-19

分布式数据库hba_第1页
分布式数据库hba_第2页
分布式数据库hba_第3页
分布式数据库hba_第4页
分布式数据库hba_第5页
资源描述:

《分布式数据库hba》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、石家庄铁道大学信息科学与技术学院第四章分布式数据库HBase大数据技术及应用提纲4.1概述4.2HBase访问接口4.3HBase数据模型4.4HBase的实现原理4.5HBase运行机制4.6HBase应用方案4.7HBase编程实践4.1概述4.1.1从BigTable说起4.1.2HBase简介4.1.3HBase与传统关系数据库的对比分析4.1.1从BigTable说起主流解决方案厂商的发展策略及现状主流解决方案——Google云计算数据存储在“云”中数据访问不受地理位置限制数据能够很方便的共享Google

2、云计算技术具体包括:Google文件系统海量数据分布存储技术(GFS)、分布式计算编程模型MapReduce、分布式锁服务Chubby分布式结构化数据存储系统Bigtable等。主流解决方案——Google云计算Google需要一个支持海量存储的文件系统购置昂贵的分布式文件系统与硬件?Google设计GFS的动机是否可以在一堆廉价且不可靠的硬件上构建可靠的分布式文件系统?7为什么不使用当时现存的文件系统?Google所面临的问题与众不同不同的工作负载,不同的设计优先级(廉价、不可靠的硬件)需要设计与Google应用

3、和负载相符的文件系统Google设计GFS的动机8一个适用于大规模分布式数据处理相关应用的,可扩展的分布式文件系统。它基于普通的不算昂贵的硬件设备,实现了容错的设计,并且为大量客户端提供极高的聚合处理性能。GFSGFS的假设与目标硬件出错是正常而非异常系统应当由大量廉价、易损的硬件组成必须保持文件系统整体的可靠性主要负载是流数据读写主要用于程序处理批量数据,而非与用户的交互或随机读写数据写主要是“追加写”,“插入写”非常少需要存储大尺寸的文件存储的文件尺寸可能是GB或TB量级,而且应当能支持存储成千上万的大尺寸文件

4、9将文件划分为若干块(Chunk)存储每个块固定大小(64M)通过冗余来提高可靠性每个数据块至少在3个数据块服务器上冗余数据块损坏概率?通过单个master来协调数据访问、元数据存储结构简单,容易保持元数据一致性无缓存GFS的设计思路10GFS将容错的任务交给文件系统完成,利用软件的方法解决系统可靠性问题,使存储的成本成倍下降。GFS将服务器故障视为正常现象,并采用多种方法,从多个角度,使用不同的容错措施,确保数据存储的安全、保证提供不间断的数据存储服务。GFS架构是怎样的?GFS系统架构Client(客户端):应

5、用程序的访问接口Master(主服务器):管理节点,在逻辑上只有一个,保存系统的元数据,负责整个文件系统的管理ChunkServer(数据块服务器):负责具体的存储工作。数据以文件的形式存储在ChunkServer上控制流状态流IO并行需要存储的数据种类繁多:Google目前向公众开放的服务很多,需要处理的数据类型也非常多。包括URL、网页内容、用户的个性化设置在内的数据都是Google需要经常处理的海量的服务请求:Google运行着目前世界上最繁忙的系统,它每时每刻处理的客户服务请求数量是普通的系统根本无法承受的

6、商用数据库无法满足Google的需求:一方面现有商用数据库设计着眼点在于通用性,根本无法满足Google的苛刻服务要求;另一方面对于底层系统的完全掌控会给后期的系统维护、升级带来极大的便利设计动机分布式结构化数据表Bigtable设计动机与目标基本目标高可用性Bigtable设计的重要目标之一就是确保几乎所有的情况下系统都可用广泛的适用性Bigtable是为了满足系列Google产品而非特定产品存储要求简单性底层系统简单性既可减少系统出错概率,也为上层应用开发带来便利很强的可扩展性根据需要随时可以加入或撤销服务器B

7、igTable为谷歌旗下的搜索、地图、财经、打印、以及社交网站Orkut、视频共享网站YouTube和博客网站Blogger等业务提供技术支持。4.1.1从BigTable说起BigTable是一个分布式存储系统,起初用于解决典型的互联网搜索问题,利用谷歌提出的MapReduce分布式并行计算模型来处理海量数据,使用GFS作为底层数据存储,采用Chubby提供协同服务管理,可以扩展到PB级别的数据和上千台机器,具备广泛应用性、可扩展性、高性能和高可用性等特点。建立互联网索引1爬虫持续不断地抓取新页面,这些页面每页一

8、行地存储到BigTable里2MapReduce计算作业运行在整张表上,生成索引,为网络搜索应用做准备搜索互联网3用户发起网络搜索请求4网络搜索应用查询建立好的索引,从BigTable得到网页5搜索结果提交给用户数据模型Bigtable是一个分布式多维映射表,表中的数据通过一个行关键字(RowKey)、一个列关键字(ColumnKey)以及一个时间戳(Ti

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。