绝顶+hbase在阿里搜索推荐中的应用-29页

绝顶+hbase在阿里搜索推荐中的应用-29页

ID:5296753

大小:4.92 MB

页数:29页

时间:2017-12-07

绝顶+hbase在阿里搜索推荐中的应用-29页_第1页
绝顶+hbase在阿里搜索推荐中的应用-29页_第2页
绝顶+hbase在阿里搜索推荐中的应用-29页_第3页
绝顶+hbase在阿里搜索推荐中的应用-29页_第4页
绝顶+hbase在阿里搜索推荐中的应用-29页_第5页
资源描述:

《绝顶+hbase在阿里搜索推荐中的应用-29页》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、HBase在阿里搜索推荐中的应用HBaseinAlibabaSearch阿里巴巴高级技术专家李钰(绝顶)YuLi12345历史和规模应用场景问题与优化开源与未来问答环节HistoryandScaleUserScenarioProblemsandSolutionCommunityRoadmapQuestionandAnswerHBase阿里搜索的历史和规模历史和规模历史和规模•历史•2010年至今,历经10+个版本•2010~2014:0.20.6->0.90.3->0.92.1->0.94.1->0.94.2->0.94.5•2014~2015:0.94->0.98.1->0.98

2、.4->0.98.8->0.98.12•2016:0.98.12->1.1.2•集群规模•总节点数5000+,最大集群节点数2000+•日常吞吐:集群超过5000万次/秒,单机峰值超过10万次/秒•单cpucore可支撑8000+QPS应用场景应用场景基础架构中的角色•核心存储系统,和计算引擎紧密结合•主要服务搜索和推荐业务•主要关注高吞吐、低毛刺应用场景-索引构建•DataStorageforBatchandStreamingProcessingDataSourceSearchEnginesAliODPSMySQLBatch&StreamingOffline&RealTimeEx

3、portingEventProcessingHBaseHBaseHBaseHDFSHDFSHDFSHadoopcluster应用场景-机器学习•DatabaseandqueueserviceforMLFlinkProcessingoverYarnMachineLearningModelsUDFHQueueUDFHQueueUDFTrainingItemIDItemModelsExportParsingΔwAggregateModelLogUpdatesUserIDTrainingUpdateUserModelsOnlineModellogOnlineSystem问题与优化问题与优化

4、Overview•HBase架构分层RPC的瓶颈和优化RPC的瓶颈和优化•实际问题•原有RpcServer的线程模型效率较低•优化手段•Netty可以更高效的复用线程•基于Netty实现HBaseRpcServer•线上效果•rpc平均响应时间从0.92ms下降到0.25ms•Rpc吞吐能力提高接近2倍RPC的瓶颈和优化•实际问题•原有RpcServer的线程模型效率较低•优化手段•Netty可以更高效的复用线程•基于Netty实现HBaseRpcServer•线上效果•rpc平均响应时间从0.92ms下降到0.25ms•Rpc吞吐能力提高接近2倍异步与吞吐异步与吞吐•实际问题•流

5、式计算对于实时性的要求很高•分布式系统无法避免秒级毛刺•同步模式对毛刺敏感,吞吐存在瓶颈•优化手段•基于netty实现non-blockingclient•基于protobuf的non-blockingStub/RpcCallback实现callback回调•线上效果•和flink集成后实测吞吐较同步模式提高2倍GC与毛刺•实际问题•PCIe-SSD的高IO吞吐能力下,读cache的换入换出速率大幅提高•堆上的cache内存回收不及时,导致频繁的CMSgc甚至fullGC•优化手段•实现读路径E2E的offheap•线上效果•Full和CMSgc频率降低200%以上•读吞吐提高20

6、%以上GC与毛刺•Before•After•https://blogs.apache.org/hbase/entry/offheap-read-path-in-productionIO隔离和优化•实际问题•优化手段•HBase对IO敏感,磁盘打满会造成大量毛刺•利用HDFS的HeterogeneousStorage功能•大IO来源•ALL_SSDforWALs,ONE_SSDforHFile•计算存储混布,batch作业产生大量的IO•Bulkload支持指定storagepolicy•HBase自身:Flush/Compaction•MR临时数据目录(mapreduce.clus

7、ter.local.dir)只使用SATA盘IO隔离和优化•优化手段•Compaction限流•Flush限流•Per-CFflush•线上效果IO利用IO利用•实际问题•单WAL无法充分使用磁盘IO--•HDFS写3份副本--•通用机型有12块HDD盘•SSD的IO能力远超HDD•优化手段•支持多WAL:对region分组•上线效果并进行合理映射•全HDD盘下写吞吐提高20%,全SSD盘下写吞吐提高40%•支持app间IO隔离;基于Namespace的WAL分组•线

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。