开源ETL系统研究与设计实现

开源ETL系统研究与设计实现

ID:46234508

大小:672.96 KB

页数:67页

时间:2019-11-21

开源ETL系统研究与设计实现_第1页
开源ETL系统研究与设计实现_第2页
开源ETL系统研究与设计实现_第3页
开源ETL系统研究与设计实现_第4页
开源ETL系统研究与设计实现_第5页
资源描述:

《开源ETL系统研究与设计实现》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、分类培密级—UDC学拉代fQ10500硕士学位论文题目:开源ETL系统研究与设计实现英目:OpenSourceETLSystemResearchandDesignRealization学位申请人姓名:张强申请学位学科专Jt:电力电子与电力传动指导教师姓名:张洪涛教授二00七年五月任何公司都有很多宝贵数据,它们需要在网络上从一个地方传送到其他地方,这就需要对软件的数据格式进行必要的处理,如从一个商务软件格式到另一种格式或数据仓库,然后进行分析。现在的问题是,各种数据处于异质系统~例如,由各种CRM(客户尖系,CustomerRe

2、lationshipManagement)系统产生的数据,可能用不同方式定义一个客户,但需要一个系统平台来统一确定其在后端会计系统是同一客户《为了解决这个问题,利用萃取、改造和装载(ETL,Extract,TransformandSad)软件»即阅读资料、统一格式、清洁源数据,并写入它的目标开发存储库。从多个异构数据源获取业务数据,进行数据清洗和转换后,存储到数据仓库的过程,称为ETL过程。提取可以通过Java的数据库提取连接技术实现,也可以通过微软公司的并放数据库互连技术获取。经过提取、数据转换或修改'依靠所涉及的具体业务逻

3、辑,以便它能够被送到目标存储库•有多种方式进行改造,涉及的作业各有不同。数据可能仅仅需要重新格式化,但大多数的ETL也涉及清洗作业,以消除备份和执行数据一致性。E1L软件的部分功能是用于检查个别数据域,并且运用规则不断转换源数据到目标存储库和用程序所要求的格式。另外,ETL过程可以涉及的领域如下:标准化域名和地址域、核实电话号码或其他领域、扩展带有附加字段的记录,其中附加字段包括人口统计数据或来自其它系统的数据。本文以项目踏蓝(TOS.TalendOpenStudio)为支撑,主要研究ETL理论及其改进,并就踏蓝项目需求进行E

4、TL系统构架设计,最后测试并达到预期。开源ETL系统解决方案对于企业决策过程整合,(TOS)踏蓝的解决方案是收集、处理和合并公司内部的各种各样不同系统内的数据,并且将他们传输至中央数据库(数据中心)。这样,数据能够很容易被访问;有效地被处理,以便更深层次的分析和报告:或者被再次输入其它运用处理程序。ETL-K于决策过程的中心一允许公司能够根据其需要,清除、标准化以及转化他们的数据。尖键词:踏蓝(TOS),ETL(萃取、改造和装载),数据存储库,AbstractConAaniesknowtheyhavevaluabledatal

5、yingaroundthroughouttheirnetworksthatneedstobemovedfromoneplacetoanother〜suchasfromonebusinessapplicationtoanotherortoadatawarehouseforanalysis.Theonlyproblemisthattheallsortsofheterogeneoussystems,andthereforeinaSIsortsofformats.ForCRMsystemmaydefineacustomerinonew

6、aywhileaback-endaccountingsystemmaydefinethesamecustomerdifferently.Tosolvetheproblem,iuseextract,transformandload(ETL)software,whichincludesreadingdatacleaningitupandformaedngitimifomily,andthenwritingittothetargetrepositorytobeexploited.Theprocessisfromallsortsofh

7、eterogeneousdatasourceextractbusinessdata,transformandcleanse"loadtodatawarehouse.ThisprocessiscalledETL(Extraction,Transformation7^andLoad).ExtractipncanbedoneviaJavaDatabaseConnectivity,MicrosoftCoip.'sOpenDatabaseConnectivitytechnologyproprictaiycodeorbycreatingf

8、lattiles.Afterextraction,thedataistransfonncd,ormodified,dependingonthespecificbusinesslogicinvolvedsottiatitcanbesenttothetargetrepositor

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。