欢迎来到天天文库
浏览记录
ID:48022896
大小:841.49 KB
页数:21页
时间:2020-01-27
《ETL算法课程--拉链表.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、课程说明1拉链定义2拉链表数据存储方式3拉链的意义4拉链算法详解5拉链表的使用注:标题加*为课后自学课程1拉链现实社会数据仓库拉链是依靠连续排列的链牙,记录数据在某一时间区间内的使物品并合或分离的连接件状态以及数据在某一时点上的变化的数据存储方式Z也是应需求而产生的技术解决方案2拉链表相关定义•历史数据存储的2种方式»快照存储»拉链存储业务日期DATA_DT业务系统2014年1月1日的数据
2、业务系统2014年1月15日的数据快照存储方式START_DTEND_DT业务系统2014年2月1日的数据开链拉链存储方式3数据存储方式--新增主键(账户ID)新增数据:即主键新增,直接开链。2014年1月1日全量源数据2014年1月1日数据仓库数据
3、2014年1月2日全量源数据2014年1月2日数据仓库数据©Pactera.Confidential.AllRightsReserved.4课程说明1拉链定义2拉链表数据存储方式3拉链的意义4拉链算法详解5拉链表的使用注:标题加*为课后自学课程5数据存储方式--删除主键(账户ID)删除数据
4、:即数据删除,直接关链2014年1月2日全量源数据2014年1月2日数据仓库数据2014年1月3日全量源数据2014年1月3日数据仓库数据6数据存储方式--修改主键(账户ID)修改数据
5、:即属性字段的更新,先关链,再开链2014年1月3日全量源数据2014年1月3日数据仓库数据2014年1月4日全量源数据2014年1月4日数据
6、仓库数据7课程说明1拉链定义2拉链表数据存储方式3拉链的意义4拉链算法详解5拉链表的使用注:标题加*为课后自学课程8拉链的意义历史数据的两种存储方式:账户状态历史表■节省存储空间■记录数据变化
7、9拉链的意义■节省存储空间案例例如,某某移动通信公司客户资料,以河北为例,河北有客记录数据在某一时间区间内的户2800W,客户资料每个一条就是2800W条记录算上历史客户,状态以及数据在某一时点上的全量大概有5000W条左右。作为数据仓库来存储这些信息几千万变化的数据存储方式条记录不算什么
8、。可是要是记录历史全量所用到的存储就非常的庞大。问题实例为:一般正常情况下,从河Z北移动的BOSS系统上每天采集全量的日数据大概为2500W条,历史存储每天存储一个2500W条的日表,存储三个月,就需要3*30*2500W条的数据存也是应需求而产生的技术解决方案储空间,数据量为20E。这只是存储三个月的历史如果存储更
此文档下载收益归作者所有