阿里巴巴海量数据场景下的列式数据库 histore-24页

ID：5287466

大小：4.88 MB

页数：24页

时间：2017-12-07

资源描述：

《阿里巴巴海量数据场景下的列式数据库 histore-24页》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、阿里巴巴海量数据场景下的列式数据库HiStoreAnOLAPColumnarDatabaseintheContextofAlibaba’sMassiveData-HiStore阿里巴巴数据库技术专家焦方飞AlibabaDatabaseTechnicalSpecialist,JiaoFangfei123WhyHiStore案例分析技术介绍WhyHiStore痛点在哪里（业界）存储成本查询效率数据维度实时性数据迁移痛点在哪里（集团内）业务层面存储成本性能要求以集团内某日志系统为例，每存储领域有几万到几十万台物理如此多的数据，如何在减低日PB级别的量级

2、，评估需要数机，存储的离线数据，历史数成本的同时保证高性能的分千台mysql据、日志、轨迹、用户行为分析析数据，占据大概一半左右HiStore–高性能分析型列式数据库高性能OLAP海量数据低成本MySQL生态多维Ad-hoc查询性能强劲PB级数据存储完全兼容MySQL生态快速响应复杂聚合类查询超高压缩比易用性好高性能数据导入运维成本低，迁移成本低以十分之一的成本，获得十倍的性能提升！HiStore详细特性OLAP引擎列式(Column-based)存储•支持任意Column组合的多维ad-hoc查询.•海量数据扫描时,数据按列进行

3、细粒度访问,避免不必要的磁盘IO消耗。•单机可以支持百亿+数据量的秒级聚合查询.•基于当前列的元信息进行高效存储优化.•查询计划并发执行(SMP),显著降低查询响应时间.基于知识网格的查询优化与执行器高效压缩算法•不依赖传统索引结构.即使数据量十分巨大，查询速度也很快•压缩率在1:10~40之间.•大数据量查询性能强劲•极大节省数据存储成本.•知识网格在数据装载以及查询过程中自动维护,无需人工介入.•针对不同数据类型提供多种压缩算法.标准MySQL协议和语法支持高性能数据导入•客户端应用迁移成本低,无需修改现有业务代码.•二进制流导入支持•结合T

4、DDL/DRDS实现存储容量和处理能力的线性提升•降低HiStoreEngine负载(CPUOffload).•多语言客户端支持.案例分析HiStore适用场景数据分析用户画像历史数据日志/轨迹数据仓库商业智能用户行为归档数据记录/监控高德热力图(用户画像)项目介绍将人地关系数据和用户画像数据进行连接，可以为地产，商铺等客户选址提供极大的帮助。主要包括热力图即任何一个地方在每个小时的人流变化的热力图像.业务难点及痛点数据量大，每天数百亿条，总量几万亿；导入速度要求高：每天数据导入需要2小时内完成，即2小时导入数百亿条数据；针对万亿级别做

5、复杂聚合操作（countdistinct,in,groupbyorderby），业务需要确保查询时间在10s以内;HiStore价值与意义秒级别的复杂聚合查询；高性能数据导入，数百亿增量数据在两小时完成；高压缩比，机器成本低；御膳房(OLAP&ADhoc查询)项目介绍御膳房策略中心是集团“品销全营销，uni-marketing”项目中的一部分，产品定位是品牌发展策略的支持平台，通过海量实时数据，帮助品牌商更高效，更明智地做出品牌发展相关的商业决策，1500W条/日；业务难点及痛点商品属性的维度是动态的,需要支持多维查询查询的数据量

6、很大，涉及到8亿数据和1亿数据之间join目前存储成本太高、稳定性不好且数据导入实时性不够HiStore价值与意义秒级别的高效稳定的多维查询，支持多达4096列，动态增删列:标准MySQL语句(ALTERTABLE)高性能数据导入，数十亿数据在一个小时加载完成，相对当前方案提升五倍御膳房二期全链路和透视项目（从几百台高配物理机集群,替换为50台HiStoredocker部署）蚂蚁体验平台(用户行为分析)项目介绍蚂蚁体验平台构建一套包含“问题收集、分析、推进、协MySQLHiStoreHiStore集群作、价值衡量”的体系，帮助蚂蚁金

7、服的产品做良性的改进；方便蚂蚁小二对集团的数据进行分析，比如对花呗的几千万托管业务数据量1400万9000万600亿上亿的会员进行画像分析；特征列数<100>512>512业务难点及痛点之前使用MySQL方案，单表数据大于2000万时，查询经常超时Count(*)

8、where1列15秒2秒1秒特征列不能超过100，查询条件越多越慢扩展不方便，维护索引麻烦Count(*)

9、where5列65秒0.8秒0.6秒HiStore价值与意义亿级别数据实现秒级别的高效稳定的多维查询Count(*)

10、where10列150秒0.35秒0.43秒

11、查询条件越多查询速度越快100列扩展到512列，扩展方便全链路追踪系统EagleEye项目介绍EagleEye是集团内一款应用广泛的

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 24



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

阿里巴巴海量数据场景下的列式数据库 histore-24页

阿里巴巴海量数据场景下的列式数据库 histore-24页

相关文章

相关标签