datastage企业版产品白皮书之五

datastage企业版产品白皮书之五

ID:16403904

大小:236.50 KB

页数:12页

时间:2018-08-09

datastage企业版产品白皮书之五_第1页
datastage企业版产品白皮书之五_第2页
datastage企业版产品白皮书之五_第3页
datastage企业版产品白皮书之五_第4页
datastage企业版产品白皮书之五_第5页
资源描述:

《datastage企业版产品白皮书之五》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、中国建设银行统一数据交换池项目-产品白皮书统一数据交换池项目ETL工具软件及产品现场支持服务竞争性谈判提交文件之六.二.五ProfileStage白皮书之二北京先进数通信息技术有限公司2004年10月21日本文件涉及信息为北京先进数通信息技术有限公司专有信息,敬请视同机密文件处理。除因需要而得到授权的中国建设银行及本公司有关人员外,请勿以任何形式向他人或任何第三方透露。第12页中国建设银行统一数据交换池项目-产品白皮书目录1.建立数据轮廓:确保数据质量的第一步31.1为什么要建立数据轮廓?31.2不要假定“我们知道自己的数据”!42.建立数

2、据轮廓:数据集成成功的关键53.介绍Ascential公司的ProfileStage™54.了解首先应从哪里开始65.建立数据轮廓的功能组成65.1列分析75.2表分析85.3主键分析85.4交叉表分析95.5规范化95.6报表与数据定义语言(DDL)的生成105.7抽取、转换与加载(ETL)工具支持106.避免传统的手工处理过程中易犯的错误11第12页中国建设银行统一数据交换池项目-产品白皮书1.建立数据轮廓:确保数据质量的第一步1.1为什么要建立数据轮廓?分析人员的研究已经表明:超过75%的数据集成项目或者超出预算,或者完全失败。它们或

3、者不能提供要求的特征,超出它们的预算,或者在完成之前被取消。为什么会有如此高的失败率呢?尽管可能会有所变化,但数据集成的传统方法基本上都采用下列一些步骤:第一步:分析用户需求,建立一个目标数据库规范。在会见用户之后,即设计出一个力求回答用户所有问题的宏大数据库模型,以求作为目标应用的解决方案。第二步:分析可用的数据源。对一组来自传统系统以及操作型系统等的数据源进行汇集和分析,以确定它们与目标数据库的关系。数据源的文档也许可用,也许根本就是不可用的,或者是不准确的。对源数据进行一系列抽样考察,以便检测出数据的属性。第三步:建立一组源数据到目标

4、数据库的映射。制定一个把各种数据源转换到目标应用的计划。典型情况下,这一阶段是用ETL工具或自编的程序完成的。第四步:集结数据。把源数据加载到中间集结区,从中可以排列、清洗和摆布成目标数据存储需要的形式。在这个阶段,可以部署数据质量软件,对数据记录进行标准化,并建立必要的连接。第五步:加载数据。把数据从集结区移至目标应用中。这一步骤包括格式数据以便制作报表。第12页中国建设银行统一数据交换池项目-产品白皮书1.1不要假定“我们知道自己的数据”!手工方法的主要问题是他们假定应用所要求的数据,其数据源实际上都是可用的。一些大的公司在数据集成项目

5、上已经花费了数百万美元,唯一的结果是最终发现源数据不支持目标模型——不管是他们自己建立的,还是由企业应用供应商开发的,因为整个处理过程通常就是由独立的开发团队手工执行的一系列无条理的步骤,而步骤之间的不连续性常常导致灾难性的后果。典型情况下,企业80%的项目预算花费在第三步和第四步,即中间集结和加载数据方面。不幸的是,实际的经验说明,把一组源数据映射到目标只是集成多个数据源的所有任务的一小部分。更重要的工作全在于解决:l源数剧中的确切数据是什么?l数据是怎样组织的?l在目标数据库模式中怎样才能最好地表示这些数据?l怎样建立这些源数据到目标的

6、映射?通常,我们很少了解源数据,这就限制了在第二步中取得成功的可能性,因而也就不可能在随后的步骤中取得成功。大多数数据集成项目之所以超出预算或者完全失败的原因是对元数据缺乏了解。如果不使用自动化的元数据反向工程工具,开发人员只能靠手工调查元数据。传统系统的元数据文档即使在最好的情况下通常也是不完整的,或者根本就不存在。能够解释这些数据的必要人员经常是已经离开了公司。采用随意猜测的方式而不是全面的内容分析,必然导致在源数据集成到目标数据存储的处理过程中存在隐患,需要在整个开发周期的后期进行排错。如果不在设计阶段找出错误,元数据中的问题将会反映

7、到生产系统中。前期未检测出的缺陷(在需求分析和设计阶段),后期纠正时的花费将是前期解决同一问题的费用的10到100倍。在数据集成的情况下,当企业试图利用数据,却没有正确理解源数据的属性,就手工建立目标数据库时,这将导致重大的财产损失。在ETL处理过程的前期缺乏能够检测问题的工具是加大数据仓库预算费用的主要原因。第12页中国建设银行统一数据交换池项目-产品白皮书1.建立数据轮廓:数据集成成功的关键数据质量差是整个公司范围项目失败的根本原因。预先根据源数据建立数据轮廓,将会带来显著的好处:l减少项目风险;l提高各种企业项目的投资回报率,包括商务

8、智能、企业应用实现、客户单点试图和重要数据管理,等等;l验证业务需求的目标究竟能够达到,还是根本就达不到;l在投入数据集成开发的时间和人力资源以前,确保不同的源数据能够支持目标要

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。