hbase在阿里搜索中的应用实践

hbase在阿里搜索中的应用实践

ID:31726374

大小:330.36 KB

页数:9页

时间:2019-01-17

hbase在阿里搜索中的应用实践_第1页
hbase在阿里搜索中的应用实践_第2页
hbase在阿里搜索中的应用实践_第3页
hbase在阿里搜索中的应用实践_第4页
hbase在阿里搜索中的应用实践_第5页
资源描述:

《hbase在阿里搜索中的应用实践》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、HBase在阿里搜索中的应用实践HBdsc作为淘宝全网索引枸建以及在线机器学习平台的核心存储系统,是阿卑搜索基础架构的靈耍纽成部分。木文我们将介绍HBase在阿里揑索的历史、规模.应用的场景以及在实际应用当屮遇到的问题和优化。作者:李饪來源:51CFOI2017-05-2208:05收藏分享[5ICTO.com原创稿件】李饪,花名绝顶,WOTA全球架构与运维技术峰会分宇谿宾,现任阿里巴巴搜索事业部高级技术专家,HBase开源社区PMC&cornmiller。开源技术爱好者,主要关注分布式系统设计

2、、大数据基础平台建设等领域。连续3年基于HBase/HDHS设计和开发存储系统应对双十一访问压力,具备卞富的大规模集群生产实战经验。HBase作为淘宝全网索引构建以及在线机器学习平台的核心存储系统,是阿里搜索基础架构的重要组成部分。木文我们将介绍HBase在阿里搜索的历史、规模,应用的场景以及在实际应用当中遇到的问题和优化,HBase在阿里搜索的历史、规模和服务能力历史:阿里搜索于2010年开始使用HBuse,从最早到II前已经有十余个版本。H前使用的版本是在社区版本的基础上经过人杲优化而成。社

3、区版本建议不要使用1.1.2版本,有较严重的性能问题,I」.3以后的版本体验会好很餅。集群规模:目前,仅在阿里搜索节点数就超过3(X)0个,故大集群超过1500个。阿里集团节点数远远超过这个数量。服务能力:去年双十一,阿里搜索离线集群的吞吐峰值一秒钟访问超过4000万次,单机一秒钟吞吐峰值达到10万次。还右在CPU使用最超过70%的情况下,单cpucore还可支檸8000+QPS.HBase在阿里搜索的角色和主要应用场景角色:HBaseM阿里搜索的核心存储系统,它和计算引擎紧密结合,主要服务搜索

4、和推荐的业务。WilSioreWWSOwfceHBase在搜索和推荐的应用流程如上图,是HBase在搜索和推荐的应用流程。在索引构建流程中会从线上MySQL等数据库中存储的商品和用户产生的所有线上数据逋过流式的方式导入到HBaes'P,并提供给搜索引擎构建索引。在推荐流程中,机器学习平台Porshe会将模型和特征数据存储在HBase里,并将川户点击数据实时的存入HBase,通过在经training更新模型,提高线上推荐的准确度和效果。应用场景一:索引构建。淘宝和天猫有各种各样的的线上数据源,这取

5、决于淘宝有非常多不同的线上店铺和备种用户访问。•DataStorageforatchandStreamingProcess!ngDataSourceSearchEnginesAfeOOPSMySQLBatch&StreamingEventOffline&RealTimeProcessingExportingHBaseHBaseHBase■ISiB)&■■1■1■:■q■1■■1121r■1■■Ml■1■•■■■索引构建应用场景如上图,在夜间我们会将数据从HBase批疑导出,供给搜索引擎来构建全虽

6、索引。而在白夭,线上商品、用户信息等都在不停的变化,这些动态的变化数据也会从线匕存储实时的更新到HBase并触发增虽索引构建,进而保证搜索结果的实时性。冃前,可以做到端到端的延时控制在秒级,即库存变化,产品上架等信息在服务端更新后,迅速的可在用户终端搜索到。•ContinuousUpdatedMaterializedViewonHBaseDataBatchContinuousUpdatedResultStreamingDataUserDefinedProcessingDAG:Mttarlailt

7、edView索引构建应用场景抽象图如上图,整个索引构建过程可以抽象成一个持续更新的流程。如把全虽和増虽看做是一个Join,线上有不同的数据源H实时处于更新状态,整个过程是长期持续的过程。这里,就凸显出HBase和流式计算引擎相结合的特点。应用场景二:机器学习。这里举一个简单的机器学习示例:用户想买一款三千元的手机,于是在淘宝按照三千元的条件筛选下來,但是没有中意的。之后,用户会从头搜索,这时就会利用机器学习模型把三千块钱左右的手机排在搜索结果的靠前位置,也就是用前一个搜索结果来影响后一个搜索结果

8、的排序。•DatabaseandqueueserviceforMLFlinkProcessingoverYarnMachineLearningModelsIDFParsingLo«■■HQueucVOFVAxirresateUpdatesExportModelUpdateOnlineOnlineSystea分析线上日志如上图,分析线上日志,归结为商品和用户两个纬度,导入分布式、持久化消息队列,存放到HBase上。随线上用户的点击行为日志來产生数据更新,对应模型随之更新,进行机器学习训练,这是一个

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。