阿里巴巴海量数据场景下的列式数据库 histore-24页

阿里巴巴海量数据场景下的列式数据库 histore-24页

ID:5287466

大小:4.88 MB

页数:24页

时间:2017-12-07

阿里巴巴海量数据场景下的列式数据库 histore-24页_第1页
阿里巴巴海量数据场景下的列式数据库 histore-24页_第2页
阿里巴巴海量数据场景下的列式数据库 histore-24页_第3页
阿里巴巴海量数据场景下的列式数据库 histore-24页_第4页
阿里巴巴海量数据场景下的列式数据库 histore-24页_第5页
资源描述:

《阿里巴巴海量数据场景下的列式数据库 histore-24页》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、阿里巴巴海量数据场景下的列式数据库HiStoreAnOLAPColumnarDatabaseintheContextofAlibaba’sMassiveData-HiStore阿里巴巴数据库技术专家焦方飞AlibabaDatabaseTechnicalSpecialist,JiaoFangfei123WhyHiStore案例分析技术介绍WhyHiStore痛点在哪里(业界)存储成本查询效率数据维度实时性数据迁移痛点在哪里(集团内)业务层面存储成本性能要求以集团内某日志系统为例,每存储领域有几万到几十万台物理如此多的数据,如何在减低日PB级别的量级

2、,评估需要数机,存储的离线数据,历史数成本的同时保证高性能的分千台mysql据、日志、轨迹、用户行为分析析数据,占据大概一半左右HiStore–高性能分析型列式数据库高性能OLAP海量数据低成本MySQL生态多维Ad-hoc查询性能强劲PB级数据存储完全兼容MySQL生态快速响应复杂聚合类查询超高压缩比易用性好高性能数据导入运维成本低,迁移成本低以十分之一的成本,获得十倍的性能提升!HiStore详细特性OLAP引擎列式(Column-based)存储•支持任意Column组合的多维ad-hoc查询.•海量数据扫描时,数据按列进行

3、细粒度访问,避免不必要的磁盘IO消耗。•单机可以支持百亿+数据量的秒级聚合查询.•基于当前列的元信息进行高效存储优化.•查询计划并发执行(SMP),显著降低查询响应时间.基于知识网格的查询优化与执行器高效压缩算法•不依赖传统索引结构.即使数据量十分巨大,查询速度也很快•压缩率在1:10~40之间.•大数据量查询性能强劲•极大节省数据存储成本.•知识网格在数据装载以及查询过程中自动维护,无需人工介入.•针对不同数据类型提供多种压缩算法.标准MySQL协议和语法支持高性能数据导入•客户端应用迁移成本低,无需修改现有业务代码.•二进制流导入支持•结合T

4、DDL/DRDS实现存储容量和处理能力的线性提升•降低HiStoreEngine负载(CPUOffload).•多语言客户端支持.案例分析HiStore适用场景数据分析用户画像历史数据日志/轨迹数据仓库商业智能用户行为归档数据记录/监控高德热力图(用户画像)项目介绍将人地关系数据和用户画像数据进行连接,可以为地产,商铺等客户选址提供极大的帮助。主要包括热力图即任何一个地方在每个小时的人流变化的热力图像.业务难点及痛点数据量大,每天数百亿条,总量几万亿;导入速度要求高:每天数据导入需要2小时内完成,即2小时导入数百亿条数据;针对万亿级别做

5、复杂聚合操作(countdistinct,in,groupbyorderby),业务需要确保查询时间在10s以内;HiStore价值与意义秒级别的复杂聚合查询;高性能数据导入,数百亿增量数据在两小时完成;高压缩比,机器成本低;御膳房(OLAP&ADhoc查询)项目介绍御膳房策略中心是集团“品销全营销,uni-marketing”项目中的一部分,产品定位是品牌发展策略的支持平台,通过海量实时数据,帮助品牌商更高效,更明智地做出品牌发展相关的商业决策,1500W条/日;业务难点及痛点商品属性的维度是动态的,需要支持多维查询查询的数据量

6、很大,涉及到8亿数据和1亿数据之间join目前存储成本太高、稳定性不好且数据导入实时性不够HiStore价值与意义秒级别的高效稳定的多维查询,支持多达4096列,动态增删列:标准MySQL语句(ALTERTABLE)高性能数据导入,数十亿数据在一个小时加载完成,相对当前方案提升五倍御膳房二期全链路和透视项目(从几百台高配物理机集群,替换为50台HiStoredocker部署)蚂蚁体验平台(用户行为分析)项目介绍蚂蚁体验平台构建一套包含“问题收集、分析、推进、协MySQLHiStoreHiStore集群作、价值衡量”的体系,帮助蚂蚁金

7、服的产品做良性的改进;方便蚂蚁小二对集团的数据进行分析,比如对花呗的几千万托管业务数据量1400万9000万600亿上亿的会员进行画像分析;特征列数<100>512>512业务难点及痛点之前使用MySQL方案,单表数据大于2000万时,查询经常超时Count(*)

8、where1列15秒2秒1秒特征列不能超过100,查询条件越多越慢扩展不方便,维护索引麻烦Count(*)

9、where5列65秒0.8秒0.6秒HiStore价值与意义亿级别数据实现秒级别的高效稳定的多维查询Count(*)

10、where10列150秒0.35秒0.43秒

11、查询条件越多查询速度越快100列扩展到512列,扩展方便全链路追踪系统EagleEye项目介绍EagleEye是集团内一款应用广泛的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。