数据仓库技术.ppt

数据仓库技术.ppt

ID:51958611

大小:460.50 KB

页数:24页

时间:2020-03-26

数据仓库技术.ppt_第1页
数据仓库技术.ppt_第2页
数据仓库技术.ppt_第3页
数据仓库技术.ppt_第4页
数据仓库技术.ppt_第5页
资源描述:

《数据仓库技术.ppt》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库

1、数据仓库顾安宁2021/7/211杭州斯凯网络科技有限公司内容数据仓库一些特点数据仓库的架构OracleRAC架构GreenPlum架构MapReduce的概念架构比较风险评估2021/7/212杭州斯凯网络科技有限公司数据仓库的目前的现状软件架构硬件架构硬软架构又可以分成封闭式和开放式。封闭式硬件架构代表厂商有teradata,其硬件是专属的,必须使用特殊的硬件才能运行。开放式硬件架构的代表有oracle,可以运行在各种硬件上,不过开放和封闭之间的界限也逐步的融合。2021/7/213杭州斯凯网络科技有限公司数据仓库的目前的现状20

2、21/7/21杭州斯凯网络科技有限公司4Greenplum在这两方面取长补短,所提供的该公司的旗舰产品——Greenplum数据引擎就是特别为支持新型数据仓库和大规模分析处理而设计开发的,可以同时支持SQL和MapReduce技术。Greenplum数据引擎对有PB量级数据的大型公司提供数据处理能力。基于Greenplum数据引擎的解决方案的核心优势在于可将原来长达数小时甚至数天的运算时间缩短为几分钟。数据仓库的软件架构数据仓库的软件架构选择更加丰富数据库软件ETL软件展现软件数据挖掘软件每一种类型里面都具备非常多的选择。2021/7

3、/21杭州斯凯网络科技有限公司5ETL约占整个项目的70%2021/7/21杭州斯凯网络科技有限公司6ETL,Extraction-Transformation-Loading的缩写,中文名称为数据抽取、转换和加载。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。如果说数据仓库的模型设计是一座大厦的设计蓝图,数据是砖瓦的话,那么ETL就是建设大厦的过程。在整个项目中最难部分是用户需求分析和模型设计,而ETL规则设计

4、和实施则是工作量最大的,约占整个项目的60%~80%,数据仓库的架构设计一些考虑因素2021/7/21杭州斯凯网络科技有限公司71.成本。成本永远是企业关心的一个核心问题,特别在如今经济寒冬,更是如此。2.效率。能否高效的处理海量的数据是一个基础要素,搞数据仓库的都知道,数据量永远是一个经常被拿出来讨论的话题。3.线性扩展。能支持线性扩展的系统在计划支撑多年的系统中特别重要,可以非常方便的做出年度预算。4.协同工作。解决多人协同开发问题。数据仓库的架构设计一些考虑因素2021/7/21杭州斯凯网络科技有限公司85.调度。能否很方便的一

5、目了然的看到整体调度,站在一个非常高的高度来管理各种数据流。6.兼容性。能否兼容各种异构数据。7.准确的监控系统。8.高效的开发框架。数据仓库的架构类型2021/7/21杭州斯凯网络科技有限公司9Oracle数据仓库的架构2021/7/21杭州斯凯网络科技有限公司10GreenPlum数据仓库的架构2021/7/21杭州斯凯网络科技有限公司11GreenPlum数据仓库的架构2021/7/21杭州斯凯网络科技有限公司12MapReduce概念2021/7/21杭州斯凯网络科技有限公司13MapReduce是一种编程模型(并不是goog

6、le自己开发的编程工具),用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(化简)",和他们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。他极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(化简)函数,用来保证所有映射的键值对中的每一个共享相同的键组。MapReduce映射概念2021/7/21杭州斯凯网络科技有限公司14简单说来,一个映射

7、函数就是对一些独立元素组成的概念上的列表(例如,一个测试成绩的列表)的每一个元素进行指定的操作(比如前面的例子里,有人发现所有学生的成绩都被高估了一分,他可以定义一个“减一”的映射函数,用来修正这个错误。)。事实上,每个元素都是被独立操作的,而原始列表没有被更改,因为这里创建了一个新的列表来保存新的答案。这就是说,Map操作是可以高度并行的,这对高性能要求的应用以及并行计算领域的需求非常有用。MapReduce化简概念2021/7/21杭州斯凯网络科技有限公司15而化简操作指的是对一个列表的元素进行适当的合并(继续看前面的例子,如果有

8、人想知道班级的平均分该怎么做?他可以定义一个化简函数,通过让列表中的元素跟自己的相邻的元素相加的方式把列表减半,如此递归运算直到列表只剩下一个元素,然后用这个元素除以人数,就得到了平均分。)。虽然他不如映射函数那么并行,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。