资源描述:
《开源ETL系统研究与设计实现》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、分类培密级—UDC学拉代fQ10500硕士学位论文题目:开源ETL系统研究与设计实现英目:OpenSourceETLSystemResearchandDesignRealization学位申请人姓名:张强申请学位学科专Jt:电力电子与电力传动指导教师姓名:张洪涛教授二00七年五月任何公司都有很多宝贵数据,它们需要在网络上从一个地方传送到其他地方,这就需要对软件的数据格式进行必要的处理,如从一个商务软件格式到另一种格式或数据仓库,然后进行分析。现在的问题是,各种数据处于异质系统~例如,由各种CRM(客户尖系,CustomerRe
2、lationshipManagement)系统产生的数据,可能用不同方式定义一个客户,但需要一个系统平台来统一确定其在后端会计系统是同一客户《为了解决这个问题,利用萃取、改造和装载(ETL,Extract,TransformandSad)软件»即阅读资料、统一格式、清洁源数据,并写入它的目标开发存储库。从多个异构数据源获取业务数据,进行数据清洗和转换后,存储到数据仓库的过程,称为ETL过程。提取可以通过Java的数据库提取连接技术实现,也可以通过微软公司的并放数据库互连技术获取。经过提取、数据转换或修改'依靠所涉及的具体业务逻
3、辑,以便它能够被送到目标存储库•有多种方式进行改造,涉及的作业各有不同。数据可能仅仅需要重新格式化,但大多数的ETL也涉及清洗作业,以消除备份和执行数据一致性。E1L软件的部分功能是用于检查个别数据域,并且运用规则不断转换源数据到目标存储库和用程序所要求的格式。另外,ETL过程可以涉及的领域如下:标准化域名和地址域、核实电话号码或其他领域、扩展带有附加字段的记录,其中附加字段包括人口统计数据或来自其它系统的数据。本文以项目踏蓝(TOS.TalendOpenStudio)为支撑,主要研究ETL理论及其改进,并就踏蓝项目需求进行E
4、TL系统构架设计,最后测试并达到预期。开源ETL系统解决方案对于企业决策过程整合,(TOS)踏蓝的解决方案是收集、处理和合并公司内部的各种各样不同系统内的数据,并且将他们传输至中央数据库(数据中心)。这样,数据能够很容易被访问;有效地被处理,以便更深层次的分析和报告:或者被再次输入其它运用处理程序。ETL-K于决策过程的中心一允许公司能够根据其需要,清除、标准化以及转化他们的数据。尖键词:踏蓝(TOS),ETL(萃取、改造和装载),数据存储库,AbstractConAaniesknowtheyhavevaluabledatal
5、yingaroundthroughouttheirnetworksthatneedstobemovedfromoneplacetoanother〜suchasfromonebusinessapplicationtoanotherortoadatawarehouseforanalysis.Theonlyproblemisthattheallsortsofheterogeneoussystems,andthereforeinaSIsortsofformats.ForCRMsystemmaydefineacustomerinonew
6、aywhileaback-endaccountingsystemmaydefinethesamecustomerdifferently.Tosolvetheproblem,iuseextract,transformandload(ETL)software,whichincludesreadingdatacleaningitupandformaedngitimifomily,andthenwritingittothetargetrepositorytobeexploited.Theprocessisfromallsortsofh
7、eterogeneousdatasourceextractbusinessdata,transformandcleanse"loadtodatawarehouse.ThisprocessiscalledETL(Extraction,Transformation7^andLoad).ExtractipncanbedoneviaJavaDatabaseConnectivity,MicrosoftCoip.'sOpenDatabaseConnectivitytechnologyproprictaiycodeorbycreatingf
8、lattiles.Afterextraction,thedataistransfonncd,ormodified,dependingonthespecificbusinesslogicinvolvedsottiatitcanbesenttothetargetrepositor