hbase的sql实践与改进-31页

hbase的sql实践与改进-31页

ID:5290332

大小:4.55 MB

页数:31页

时间:2017-12-07

hbase的sql实践与改进-31页_第1页
hbase的sql实践与改进-31页_第2页
hbase的sql实践与改进-31页_第3页
hbase的sql实践与改进-31页_第4页
hbase的sql实践与改进-31页_第5页
资源描述:

《hbase的sql实践与改进-31页》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、Ali-HBase的SQL实践与改进阿里巴巴天穆12345为什么需要SQL?SQLonAli-HBase优化与改进ApsaraDB-HBase未来的工作案例:时间序列数据的存取time(desc)eventmessage需求:10040011aaa按时间顺序追加新记录8010020bbb按时间范围查询数据8010010ccc查询结果按时间倒排7010040ddd6020000eee.........写热点问题time(desc)eventmessagetime(desc)eventmessage10040011aaa12010010xxx8010020bbb11010020y

2、yy8010010ccc10040011aaa7010040ddd8010020bbb6020000eee8010010ccc..................解决写热点问题:Hash散列time(desc)eventmessagehashtimeeventmessage12010010xxxAAAA10040011aaa11010020yyyBBBB8010020bbb10040011aaaCCCC12010010xxx8010020bbbDDDD8010010ccc8010010cccEEEE11010010yyy.........FFFF.........解决写热点问题:分

3、桶bucket_idtime(desc)eventmessage分桶:10040011aaabucket_id=md5(rowkey)%bucket_num17010040ddd5030000fff所有“桶”都可写8010010ccc2数据在桶内有序,桶之间无序6020000eee代价:范围查询时,须并发查所有桶,客户端8010020bbb执行mergesort34010050hhh............解决写热点问题:分桶bucket_idtime(desc)eventmessageSelect*fromeventLogwheretime>40andtime<=70;10

4、040011aaa17010040dddbucket_1:70,505030000fffbucket_2:608010010cccbucket_3:NA26020000eeemergesort9010020bbb34010050hhh70,60,50............基于HBaseNativeAPI的实现分桶:写:打散读:并发scan,clientmergesortdesc主键:ts=Long.MAX_VALUE-tsrowkey:3列主键的拼接与拆分数据类型转换:Hbase只支持byte[]对于复杂的业务场景,用户要做的事情更多使用HBaseNativeAPI的

5、代价与收益精准成本/负担细节:用户可精确控制一切,如hash函数选取学习成本:学习曲线陡峭最佳性能/吞吐:便于针对场景进行优化开发成本:代码量大自定义重复实现复杂的业务场景每个用户都要做相同/相似的事情“难用”的HBaseNativeAPIHBaseNativeAPI仅提供“原语”级别的操作抽象层次低目标:降低接入门槛,让用户能快速、低成本的接入需求:解决共性问题自动/透明的rowkey散列自动拼接/解析rowkey(schema)支持丰富的数据类型支持丰富的查询语义支持二级索引支持聚合...解决方案:SQLonHBase解决NativeAPI“难

6、用”的问题具备NativeAPI的全部能力成为HBase的默认户接口与NativeAPI性能差距<5%相比HBaseAPI,大家更熟悉SQL快速开发(ORM框架)对用户透明的优化拓展服务边界SQL工具更低的接入门槛和成本基于Phoenix的SQLonHBase解决方案PhoenixJDBCDriverZooKeeperServiceHBaseClientHBaseMasterServiceRegionServerRegionServerRegionServerPhoenixPhoenixPhoenixCoprocessorCoprocessorCoprocessorH

7、DFS案例1:支付宝智能搜索dump平台实时链路250+张表数据源HBase80亿+数据HBaseShopShop日更新1亿全链路RT<200msItem同步ItemJoinResult导出搜索引擎平均selectRT<10ms平均qps>10W,峰值30W+RelationRelation全量链路案例1:支付宝智能搜索dump平台场景:周期性全量导入+实时增量HBase每张主表平均3-6张索引表HBase实时写入Shop基于全局二级索引的多维度查询

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。