ETL算法课程--拉链表.pdf

ETL算法课程--拉链表.pdf

ID:48022896

大小:841.49 KB

页数:21页

时间:2020-01-27

ETL算法课程--拉链表.pdf_第1页
ETL算法课程--拉链表.pdf_第2页
ETL算法课程--拉链表.pdf_第3页
ETL算法课程--拉链表.pdf_第4页
ETL算法课程--拉链表.pdf_第5页
资源描述:

《ETL算法课程--拉链表.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、课程说明1拉链定义2拉链表数据存储方式3拉链的意义4拉链算法详解5拉链表的使用注:标题加*为课后自学课程1拉链现实社会数据仓库拉链是依靠连续排列的链牙,记录数据在某一时间区间内的使物品并合或分离的连接件状态以及数据在某一时点上的变化的数据存储方式Z也是应需求而产生的技术解决方案2拉链表相关定义•历史数据存储的2种方式»快照存储»拉链存储业务日期DATA_DT业务系统2014年1月1日的数据

2、业务系统2014年1月15日的数据快照存储方式START_DTEND_DT业务系统2014年2月1日的数据开链拉链存储方式3数据存储方式--新增主键(账户ID)新增数据:即主键新增,直接开链。2014年1月1日全量源数据2014年1月1日数据仓库数据

3、2014年1月2日全量源数据2014年1月2日数据仓库数据©Pactera.Confidential.AllRightsReserved.4课程说明1拉链定义2拉链表数据存储方式3拉链的意义4拉链算法详解5拉链表的使用注:标题加*为课后自学课程5数据存储方式--删除主键(账户ID)删除数据

4、:即数据删除,直接关链2014年1月2日全量源数据2014年1月2日数据仓库数据2014年1月3日全量源数据2014年1月3日数据仓库数据6数据存储方式--修改主键(账户ID)修改数据

5、:即属性字段的更新,先关链,再开链2014年1月3日全量源数据2014年1月3日数据仓库数据2014年1月4日全量源数据2014年1月4日数据

6、仓库数据7课程说明1拉链定义2拉链表数据存储方式3拉链的意义4拉链算法详解5拉链表的使用注:标题加*为课后自学课程8拉链的意义历史数据的两种存储方式:账户状态历史表■节省存储空间■记录数据变化

7、9拉链的意义■节省存储空间案例例如,某某移动通信公司客户资料,以河北为例,河北有客记录数据在某一时间区间内的户2800W,客户资料每个一条就是2800W条记录算上历史客户,状态以及数据在某一时点上的全量大概有5000W条左右。作为数据仓库来存储这些信息几千万变化的数据存储方式条记录不算什么

8、。可是要是记录历史全量所用到的存储就非常的庞大。问题实例为:一般正常情况下,从河Z北移动的BOSS系统上每天采集全量的日数据大概为2500W条,历史存储每天存储一个2500W条的日表,存储三个月,就需要3*30*2500W条的数据存也是应需求而产生的技术解决方案储空间,数据量为20E。这只是存储三个月的历史如果存储更

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。