欢迎来到天天文库
浏览记录
ID:9231787
大小:202.37 KB
页数:5页
时间:2018-04-24
《dw2.0下一代数据仓库的架构读书笔记》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、《DW2.0---下一代数据仓库的架构》读书笔记在公司花了一天时间把这本书翻完了,这本书是PM借我看的,之前一直忙项目,没有时间看,在国庆期间就想把它看完早点还了。书不厚,才218页,所以比较快的看完了,总算完成了既定目标。这本书是老外写的,但是翻译的不错。至少我从头读到尾没感觉很不顺畅的地方。看封面上写的主要四个人翻译的,看来多点人翻译校对,翻译质量还是能够上去的嘛。这本书写的挺好,介绍了数据仓库的一些基本知识,虽然多是概念上的东西,没有什么实际案例,但是对于我入门还是挺有帮助的。书的章节后都会有一个总结,整理的很好,有时候
2、我会先看总结,然后再针对性的看详细内容,这样看起来效率蛮高,效果也不错。主要内容是介绍了DW2.0只区别于之前的数据仓库的变化,以及DW2.0中采用的一些方案,从数据的生命周期,谈到数据模型,如何应对不断变化的业务需求,ETL在数据仓库中的角色,以及后面的性能,成本考虑以及对非结构化数据的处理。感觉有些概念是需要记下的,大部分内容就摘录总结的内容了。DW2.0是新一代数据仓库的构架。DW2.0和第一代数据仓库有很大的差别。四个最大的差别如下:1,随着数据进入并存储于数据仓库,产生了对数据生命周期的认识。2,数据仓库中包含非结构
3、化数据。3,DW2.0环境包含元数据。4,DW2.0的技术基础能够随着时间而变化。DW2.0的四个主要的生命周期区:1,交互区,数据仓库一更新模式在交易响应时间水平下完成构建2,整合去,数据在这里经过整合并完成分析处理3,近线区,作为整合区数据的一个缓存区域4,归档区,存放访问概率显著下降但仍有可能访问的数据以上的四个区,按照数据的时间进行划分,交互区的数据非常新,比如刚2秒的数据。整合区大概有24小时或一个月之久的数据。而近线区存放3~4年的数据,作为整合区的一个缓存,如果有些数据不被频繁的访问到,则可能会将数据从整合区放到
4、近线区,反之也有可能移回整合区,在很多方面,近线区就是整合区的延伸,近线区时可选择的,亦即数据不一定需要经过这一区。但是当数据量非常大并且数据间的访问概率差别很大时,就可以利用近线区来处理。后面提到近线区的存储成本比整合区要低很多。归档区存放超过5年甚至10年的数据,这些数据一般不会被查询到,但是不排除专门的数据分析师会用到,所以还是需要存储的。设置不同区的原因:由于数据的访问概率和访问模式差别很大。比如交互区的数据被频繁访问,并且其访问模式是随机访问。这样就有必要将数据进行划分,区别对待,不同区的数据采用的技术会有所不同。在
5、经典的数据仓库中,所有的数据都被存放在磁盘存储器上,好像所有的数据都有平等的访问机会。这样其实会导致数据越聚越多,造成经常被访问的数据的访问效率下降,对不同的数据要求的响应时间也会不同,比如历史很久的数据,查询很少,可以忍受等几个小时或一天的时间等数据出来。而最近的数据会被经常访问到,希望是秒杀级的速度。所以要将数据进行分区,集中性的处理。这样层次上也比较清晰。数据是会会随着时间流动的,慢慢的从交互区,最终移动到归档区。数据的结构在不同的区之间可能会做些改变。不同的生命周期,数据的访问方式和分析手段会不同,对数据的响应要求也会
6、改变,这样就会利用ETL或其他应用程序来处理。整合区的数据是在对交互区中的数据通过ETL层处理后收集得到的。在进行ETL处理时,同时进行数据的质量处理。简单的数据质量处理就是域检查和范围检查。访问整合区中数据事务处理仅限于读取数据。这不像交互区中,删除,修改,整合区中的数据只能访问,不能更新。整合区中的数据不能添加,删除,修改意味着不溶于数据的更改,而是可以以一种不同的方式完成对数据的更改。整合区对于同一时间提出的问题保证了回答的一致性。整合区中有两种相关的参照完整性。第一张是区间参照完整性,区间参照完整性指的是交互区通过各区
7、时的完整性。就是说,当数据从交互区进入整合区时,数据必须有可辨别的源和目的以确保数据不会丢失。整合区中另一种参照完整性是相同区内的参照完整性,这种完整性意味着同一区内数据元素之间可能存在某种关系。整合区的数据通常与使用它的某一特定版本的软件是兼容的。到归档数据被从归档环境中检索出来时,使用它们的这个版本的软件可能早已不存在了。因此,把归档区的数据结构设计的与整合区一样是不明智的。没有任何理由不允许数据以两种格式存放在归档环境-一种是整合区中的源格式,另一种是更为简单通用的格式。近线区就像是整合区的一个缓存。近线区基于非磁盘存储
8、技术运行,其中包含了整合区中数据的镜像。近线区通过人工或者一种跨媒介存储管理(CMSM)方法与整合区连接。近线区的工作流主要是不频繁的数据读取。但是数据的读取都是集中进行的。当数据的访问频率下降时就被放入近线区。DW2.0中的元数据DW2.0中的每个区中都有各自的元数据,其中
此文档下载收益归作者所有