欢迎来到天天文库
浏览记录
ID:48008644
大小:1.52 MB
页数:67页
时间:2020-01-13
《原理-分布式数据库HBase.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、分布式数据库HBase1内容HBase的历史和特点HBase和其他Hadoop成员的关系HBase的数据模型HBase的访问接口HBase的运行组成HBaseRegionHBase的读写其他HBase功能2为何需要构建分布式数据库•从数据类型来说,在网络上存在大量的结构化与半结构化数据,如果仅仅使用分布式文件系统的方式就会丢失大量结构信息–URL数据,针对每一个网页有:网页内容,元数据,链接信息,链接描述数据,PageRank的值–对于每个用户的数据来说,有用户自己特定的设定,最近的查询历史等–对于网络应用程序来说,例如购物网站的
2、商品信息以及用户信息;卫星数据的一些标志数据等•数据规模十分庞大–对于网页来说,显然整个互联网的数据无法估量–用户数目也极其庞大,造成用户数据也十分庞大–对于网络应用程序来说,只要服务于整个互联网的,造成的数据规模也十分庞大3传统的数据库管理系统是否能够完成工作•对于绝大多数商业数据库来说,云条件下的数据都过于庞大•关系模型对数据的操作使数据的存贮变得复杂。传统数据库的强一致性的要求,往往在处理互联网规模的数据的时候显得无法胜任•即使不考虑数据规模,对于任何应用来说,使用如此大规模的商业数据库都会造成花费极多(想象一下昂贵的商用数
3、据库)•可以对传统的数据库进行改良,但是改良的关系数据库(副本、分区等)难于安装与维护•因此,Google启动了BigTable项目,用以处理Google内部的大规模的结构化以及半结构化数据4关系数据库的理论局限性•RDBMS选择了ACID–超强的一致性(transaction)牺牲了水平可扩展性•Scaleup,notout–并行数据库的扩展性•经验定律:当集群节点数每增加4~16台,每个节点的效率下降一半–无法扩展超过~40节点•最新的TPC-C世界纪录:27servers•最新的TPC-H世界纪录:32servers•“On
4、esizedoesnotfitall”–在所有数据库的主要应用领域,新的架构轻易得有10x倍性能提升(数据仓库,流处理,科学计算,非结构化数据处理,OLTP在线事务处理)**ACMSIGACTNews,Volume33Issue2(2002):“Brewer'sconjectureandthefeasibilityofconsistent,available,partition-tolerantwebservices”*ICDE2005:“OneSizeFitsAll”:AnIdeaWhoseTimeHasComeandGone*
5、VLDB2007:TheEndofanArchitecturalEra(It’sTimeforaCompleteRewrite)5CAP•Onesizedoesnotfitall*•CAP–一致性(Consistency)•客户端知道一系列的操作都会同时发生(生效)–可用性(Availability)•每个操作都必须以可预期的响应结束.–分区容错性(Partitiontolerance)•即使出现单个组件无法可用,操作依然可以完成.6RDBMS的实现局限性•RDBMS实现和操作上的局限性–不适合新的应用•大表-在一张表中存储500
6、GB的数据?•灵活动态可变的表结构-为大表修改表结构(AlterTable)?•无停机时间的在线大表分区和动态扩容-…关系数据库vs.Hadoop/HiveIntelsilicondesignenvironmentusageanalysis,40Mrecords/daySQLlimitation–queryon0.5TBdata7HBase的历史与简介–2006年Google发表了BigTable论文–2006年底由PowerSet的ChadWalters和JimKellerman发起了HBase项目,依据BigTable的论文重
7、构关系数据库–2007年2月建立了HBase的原型版本–2007年10月建立了第一个可用的HBase版本–2008年成为ApacheHadoop的一个子项目•HBase是GoogleBigtable的开源实现。Bigtable利用GFS作为其文件存储系统;HBase使用HDFS作为其文件存储系统。GoogleBigtable利用Chubby作为一个可靠服务的根,Chubby提供了BigTable中的根元数据表的指针以及用以监控所有数据分表服务;在HBase中,对应的系统服务为ZooKeeper8HBase的特性Hadoopdata
8、baseandNoSQLdatabase•基本的数据库操作CRUD•强一致性•无SQL语言支持•稀疏的多维映射表–列存储–只用rowkey来定位行–每行可以有不同的列–数据有多个版本(在不同的时间点的快照信息)•非常高的数据读写速度,为写特别优化–
此文档下载收益归作者所有