企业大数据平台仓库架构建设思路

企业大数据平台仓库架构建设思路

ID:37290885

大小:1.65 MB

页数:31页

时间:2019-05-20

企业大数据平台仓库架构建设思路_第1页
企业大数据平台仓库架构建设思路_第2页
企业大数据平台仓库架构建设思路_第3页
企业大数据平台仓库架构建设思路_第4页
企业大数据平台仓库架构建设思路_第5页
资源描述:

《企业大数据平台仓库架构建设思路》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、企业大数据平台下数仓架构阿里云-飞天一部介然总体思路模型设计数加架构数据治理新环境下的数据应用特征业务变化快数据来源多系统耦合多应用深度深关键词稳定可信丰富透明大数据平台特征强大的计算和存储能力;多样的编程接口和框架;丰富的数据采集通道;各种安全和管理措施;仓库架构设计原则自下而上+自上而下;高容错性;数据质量监控贯穿整个数据流程;不怕数据冗余,利用存储换易用;总体思路模型设计数加架构数据治理维度建模OR实体关系建模维度建模实体关系建模实施简单实施复杂便于事实数据分便于主体数据打析通适合业务分析报适合复杂数据内表和BI容的深度挖掘星型模型AND雪花模型两种模型是并存的星型是雪

2、花的一种,理论上真实数据的模型都为雪花模型,实际数据仓库中两种模型会并存。中间层将雪花转变成星型星型模型相对结构简单,在数据中间层利用数据冗余将雪花转变成星型模型有利于数据应用和减少计算资源消耗。数据分层上下三层结构集市层减少层次结构的目的是为了压缩整体数用据处理流程的长度,扁平化的数据处理流程有助于数据质量控制和数据运维流式中间层流式数据作为数据体系的一部分通数据当前的数据应用方向会越来越关注数据的时效性,越实时的数据价值度越高。基础数据层存基础数据层数据清洗数据采集清洗不符合质量要把不同数据源的数求的数据,避免脏据统一采集到一个数据参与后续数据平台计算数据归类数据结构化建立数据目录,在数

3、据规范化对于半结构化或非基础层一般按照来规范维度标识、统结构化的数据,进源系统和业务域进一计量单位行结构化行分类11数据中间层围绕实体打通行为当前业务形态下,同一实体的数据可能分散在不同的系统和来源,且这些数据对同一实体的标示符可能不同。中间层最重要的目标是把同一实体不同来源数据打通起来。关系从行为抽象关系从行为中抽象出来的基础关系,会是未来上层应用一个很重要的数据依赖。如兴趣、偏好、习惯等关系数据是推荐、个性化的基础生产资料。冗余是个好手段在中间层,为了保证主题的完整性或提高数据的易用性,经用户商品常会进行适当的数据冗余。比如某一实事数据和两个主题相关但自身又没有成为独立主题,会放在两个主

4、题库中。为了提高单数据表的复用性和减少计算关联,通常会在事实表中冗余部分维度信息。12数据集市层需求场景驱动的集市层建设,各集市之间垂直构建个性用户风险化推。。。画像识别集市层深度挖掘数据价值荐集市层需要能够快速试错中间层流式数据集需求驱动流式数据集的采集、加工和管理的成本较高,一般都会按照需求驱动的方式建设。事实数据维度数据包含事实和维度未来保障数据统计的准确度,流式数据集同样包含事实和维度。结构更扁平介于成本较高,流式数据体系的结构更扁平,通常不会设计中间层。应用加工总体思路模型设计数加架构数据治理数据服务统计服务分析服务标签服务数据体系集市层中间层流式数据基础数据层数据整合同步&结构化

5、日志数据富文本&非结构化结构化数据结构化数据采集实时采集全量采集增量采集•实时采集数据集的变化数•每日采集数据库表的快照。•采集数据集每日变化的数据。•适合数据量较小的数据集。据。•比较适合数据量巨大,增•前端库压力较小,不会影•适合数据已经有一定规模,量数据同步资源也消耗严响前端应用,不会占用较全量采集时间较长且对前重的情况。大带宽,同步时间不会较端应用产生压力的状况。•或者后续的数据应用需要长。•前端业务表的设计需包含用到准实时数据。•采集方式最简单,对库表时间戳字段,且任何对数•实时采集对采集端系统有没有特殊要求,后续使用据的操作都会更新时间戳。一定的要求。较简单。•增量采集后一般会和

6、昨日•采集质量最难控制。的全量数据merge一个今天的全量数据。日志结构化日志文本•日志采集到平台之前不做结构化•通过换行符分割每条日志,整条日志存储在一个数据表字段parser•通过UDF或MR计算框架实现日志结构化•日志原始结构越规范,解析的成本越低•并不一定需要完全平铺数据内容,结构化出重要常用字段,为了保障扩展性,利用日志结构化数据数据冗余保存原始符合字段,如useragent字段非结构化数据特征提取语音转文本图片识别自然语言处理图片打标视频识别。。。19数据服务化统计服务偏传统的报表服务,利用大数据平台将数据加工后的结果放入关系型数据库中,由前端的报表系统或业务系统查询。分析服务提

7、供明细的事实数据,利用大数据平台的实时计算能力,允许操作人员自主灵活的进行各种维度的交叉组合查询。能力类似于传统cube提供的内容,但是在大数据平台下不需要预先建好cube,更灵活,更节省成本。标签服务大数据的应用场景下,经常会对主体进行特征刻画,比如客户的消费能力、兴趣习惯、物理特征等等,这些数据会转换成KV的数据服务,提供前端应用查询。架构设计中一些实用的点巧用虚拟节点强制分区多系统数据源同步所有

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。