欢迎来到天天文库
浏览记录
ID:31773575
大小:56.43 KB
页数:6页
时间:2019-01-18
《大数据时代数据仓库技术跟进》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、大数据时代数据仓库技术跟进数据仓库(DataWarehouse,可简写为DW或DWH)是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。它是单个数据存储,出于分析性报告和决策支持的目的而创建。数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。在大数据(BigData)时代,随着技术的发展,数据仓库已包含提取、清洗、集成数据并将数据交付给决策者的完整生态系统,包括提取-转换-加载(ETL)和商业智能(BI)功能。数据仓库在捕获所有形式的企业数据,以及在其后准备这些数据供全企业决策者使用的过程中,起到非常广
2、泛的作用。大数据与数据仓库的异同大数据时代的到来,确实对传统的数据仓库认知产生了重大的影响。什么是大数据?大数据的“大”实际上并不是最令人关注的特征。大数据是很多不同格式的结构化、半结构化、非结构化和原始数据,在某些情况下看起来与过去30年来我们存储在数据仓库中清一色的标量数字和文本完全不同。从另外一个角度来讲,小数据比较简单,有比较成熟的技术应对它。大数据是多种类型数据的组成,需要使用多种技术对待它。每一个识别和监测它的手段和方法是不一样的。然而,很多大数据不能使用任何类似SQL这样的工具进行分析。对于企业及应用来说,数据仓库应用更加有
3、效。两者并不形成替代,特别是银行业等行业里面,更多的是互为补充。数据仓库的技术特点被称为数据仓库之父的Billlnmon在其著作^(BuildingtheDataWarehouse))一书这样描述:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化(TimeVariant)的数据集合,用于支持管理决策。可以从两个层面对数据仓库的概念进行理解,一是数据仓库是面向分析处理的,主要用来支持决策制定;二是数据仓库包含历史数据,是对多个异构的数据源数据按照主题的集成,它的数据相对固定,不会经常改动。面向主题的:数据仓库的数据都是按照一定的业
4、务主题进行组织的,面向主题体现在数据仓库的建设中,而且还包含在业务数据分析和存储上。集成的:数据仓库中的数据来自各个不同的分散数据库中,它并不是对源数据库数据的简单拷贝,而是按照划分好的主题和数据分析要求,经过数据抽取、清理、汇总和整理等步骤,消除源数据中的错误和不一致的数据,保证数据仓库中数据的正确性和可用性。所以,它是整合集成的。相对稳定的:数据仓库的稳定性体现在它的非易失性上,由于数据仓库是面向分析的,其中的数据是从业务数据中加载过来的历史数据,所进行的主要操作是查询和分析,供决策分析使用,所以其修改和删除操作很少,只需要定期的增量
5、加载,所以具有相对稳定特征。反映历史变化:数据仓库必须能够不断地捕捉业务系统中的变化数据,记录企业生产过程的各个阶段的信息,以满足决策分析的需要,所以必须实时地把新变化的业务数据追加到数据仓库中去,通过数据随时问变化的研究和分析,可以对企业的发展历程和未来趋势做出定量分析和预测。选择实施方法企业级数据仓库的实现通常有两种途径:一种是从建造某个部门特定的数据集市开始,逐步扩充数据仓库所包含的主题和范围,最后形成一个能够完全反应企业全貌的企业级数据仓库;另外一种则是从一开始就从企业的整体来考虑数据仓库的主题和实施。前一种方法是各个击破,投资少
6、、周期短且易于见到成果,但由于该设计开始时是以特定的部门级主题为框架的,向其他的主题和部门扩充往往非常困难。而后一种方法恰恰相反:投资大、周期长,但是易于扩展。以哪种方法进行实施,主要取决于各个行业和客户的实际情况。如电信和银行业,采用第二种方法比较可行,这是因为这两个行业业务发展变化快,为了能够适应将来的变化,整个数据仓库架构必须是可扩展的和易于维护的。如果只是基于部门级的需求去设计,将来肯定无法适应变化。如果重新设计,势必造成前期投入的浪费。对其他一些行业,如制造业和零售业,本着“急用先行”的原则,可以先从某一局部入手,慢慢扩展为数据
7、仓库。从技术上讲,以部门需求作为主要考虑因素建立的系统,它的数据量不会太大,会影响对将来数据膨胀风险的正确估计,当数据集市扩展到企业范围的时候,由于原有技术无法支撑新的数据规模,会造成数据装载和数据分析速度的降低,甚至达到不可用的地步。企业级的数据仓库会涉及更多的额业务系统,只有充分研究各业务系统,才能了解如何对不同格式、不同标准、不同接口的数据进行集成。当然,对于第二种方法,也不是说把摊子铺的越大越好。合理的做法是“统筹规划,分步实施”。根据业务需求,把业务的主要方面都涵盖进去,确定彼此之间的联系;对于次要的需求,可以预留一些接口,以备
8、将来细化。否则,如果整个调研周期拖得太长,等进入实施阶段,业务又发生变化,不得不重新修改设计,同样会造成浪费。所以,先搭建好一个易于扩展且稳定的架构,在此基础上逐步实施,是一个兼顾长远发展与合
此文档下载收益归作者所有