大数据处理:HBASE课件.ppt

大数据处理:HBASE课件.ppt

ID:57113876

大小:2.92 MB

页数:42页

时间:2020-07-31

大数据处理:HBASE课件.ppt_第1页
大数据处理:HBASE课件.ppt_第2页
大数据处理:HBASE课件.ppt_第3页
大数据处理:HBASE课件.ppt_第4页
大数据处理:HBASE课件.ppt_第5页
资源描述:

《大数据处理:HBASE课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、大数据处理HBASE(2)提纲从RDMBS到HBase的表设计转变HBASE操作方式HBase数据操作基本功能HBase数据操作高级功能2RDBMS表设计RDBMS表的ER设计模型:以实体(Entitiy)、实体间关系(Relationship)、以及实体属性(Attribute)为核心的建模过程数据库设计范式3HBase表设计行关键字取代了主键,属性由列关键字取代4RowKey的设计例:收集一个集群中所有节点的日志log,保存在Hbase表LOG_DATA中。字段:机器名,时间,事件,事件正文数据访问特性1数据生成速度快,因此插入速度要快。2典型查询操作1)对每台机器,查询一个较大

2、时间段(例如1个月)内所有满足条件的记录(单机查询)2)查询某个时间段内对所有机器满足条件的记录(全局查询)5RowKey的设计设计1:[机器名][时间][事件]可以高效实现单机查询插入性能高设计2:[时间][机器名][事件]可以高效实现全局查询插入性能低(导致存储热点)设计3:[盐值][时间][机器名][事件]盐值=时间%桶的个数6RowKey的设计原则长度原则:越短越好,一般不要超过16个字节数据的持久化文件HFile中是按照KeyValue存储的,如果rowkey过长,比如超过100字节,1000w行数据,光rowkey就要占用100*1000w=10亿个字节,将近1G数据,这

3、样会极大影响HFile的存储效率;MemStore将缓存部分数据到内存,如果rowkey字段过长,内存的有效利用率就会降低,从而降低检索效率。唯一原则充分利用这个排序的特点,将经常读取的数据存储到一块,将最近可能会被访问的数据放到一块散列原则如果rowkey按照时间戳的方式递增,不要将时间放在二进制码的前面,建议将rowkey的高位作为散列字段,由程序随机生成,低位放时间字段,利于数据均衡分布。7操作HBase数据方式(1)-ShellHBase的Shell工具通过Shell可以连接到本地或远程的HBase服务器上操纵数据命令行启动:>$HBASE_HOME/bin/hbaseshe

4、ll五类命令:表管理:创建、删除和修改表的相关操作指令create'table','col_f1','col_f2’数据管理:对表中的数据进行操作put'table','row1','col_f1','value'get'table','row1’,'col_f1'scan‘table’,{LIMIT=>5}delete'table','row1’工具:管理和优化数据存储方式的功能复制:将数据备份到多个节点的相关操作指令其他:查看HBase集群状态和版本8操作HBase数据方式(1)-Shell在HBase查询的时候,有以下几种方式:通过get方式,指定rowkey获取唯一一条记录通

5、过scan方式,设置startRow和stopRow参数进行范围匹配全表扫描,即直接扫描整张表中所有行记录9操作HBase数据方式(2)-JavaAPIHBaseConfiguration配置类HBaseAdmin对数据表进行操作的接口HTableDescriptor数据表列族操作及表属性的操作接口HColumnDescriptor数据列相关的数据和操作接口HTable,Put/Get/Delete数据的插入、检索和删除操作10HBase数据操作示例创建表插入数据检索数据删除数据批量组合操作11创建表:Create12创建表后13插入单行数据:Put14插入多行数据:Puts15插入

6、数据后16检索单行数据:Get17检索数据18检索数据过程19检索多行数据:Gets20扫描数据:Scan1Scan2Scan(byte[]startRow)3Scan(byte[]startRow,byte[]stopRow)4Scan(byte[]startRow,Filterfilter)Filterfilter=newSingleColumnValueFilter(Bytes.toBytes(family),Bytes.toBytes(qualifier),CompareOp.EQUAL,Bytes.toBytes(value);ResultScannerrs=table.g

7、etScanner(scan);21删除多行数据:Delete22批量组合操作23更新操作哪去了?思考HDFS的特性HBase的表结构24启用客户端写缓存setWriteBufferSize(longwriteBufferSize)setAutoFlush(false)flushCommits()25高级功能(1)-联合查询RDBMS联合查询:张三选修成功的课程名称和地点SELECT@sid=student_idFROMStudentWHEREname="

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。