ETL系统的仓库任务调度模块的实现---开题报告.doc

ETL系统的仓库任务调度模块的实现---开题报告.doc

ID:11059854

大小:509.00 KB

页数:11页

时间:2018-07-09

ETL系统的仓库任务调度模块的实现---开题报告.doc_第1页
ETL系统的仓库任务调度模块的实现---开题报告.doc_第2页
ETL系统的仓库任务调度模块的实现---开题报告.doc_第3页
ETL系统的仓库任务调度模块的实现---开题报告.doc_第4页
ETL系统的仓库任务调度模块的实现---开题报告.doc_第5页
资源描述:

《ETL系统的仓库任务调度模块的实现---开题报告.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、厦门大学软件学院《毕业设计(论文)》开题报告学生姓名班级学号校外指导教师姓名职称所在单位北京福富软件技术股份有限公司福州分公司校内指导教师姓名职称所在单位厦门大学毕业设计(论文)题目ETL系统的仓库任务调度模块的实现毕业设计(论文)的目标:一、项目背景[1]:“数据仓库”一词最早是在1900年,由BillInmon先生提出的。其描述如下:“数据仓库是为支持企业决策而特别设计和建立的数据集合”。准确说来,数据仓库是一个环境,而不是一件产品,提供用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或不能得到。数据仓

2、库技术是为了有效的把操作形数据集成到统一的环境中以提供决策型数据访问的各种技术和模块的总称。打破数据来源的壁垒,对来源于全省多个业务系统的不同数据进行整合,建立一个“大集中”的数据仓库,构造真正意义上的“客户统一视图”,让领导和分析人员能切实掌握电信客户、用户的全面信息,为决策提供完备的依据。具体目标:设计并实现一个ETL工具,完成数据的抽取、转换与装载,保证数据源源不断的从源系统进入数据仓库。(1)可以进行数据模型的任务配置(2)数据转换规则能手动配置;(3)实现数据‘抽取-转换-装载’任务流程的自动调度;(4)能监控任务执

3、行情况;(5)查询任务执行日志;(6)查看数据之间的依赖关系(7)数据质量的管控。二、项目概况[1]整个项目的系统架构如图1所示。可以从图中看出数据仓库系统将为中国电信各个分公司进行各种分析与决策提供最基础的环境支持与数据支持。图1系统部署图[1]为了能更好的服务于企业分析与决策,提供直观的数据展示,保证数据获取中的数据质量,以及方便整个系统的管理运行,系统功能组织考虑到了整个方面,如图2所示。图2系统功能组织图[1]整个数据仓库系统划分为4个平台,具体功能模块如图3所示,各个平台以及各个模块的内容如下:(1)应用管理平台:主

4、要用于对系统访问层面和操作层面进行管理,如对用户、权限的设置;个性化界面等的定制;报表搜索、系统参数设置等功能;通过这些功能,使用者能更方便、有效的使用数据仓库系统。(2)目标客户管理平台:通过对重点数据(如档案、月帐单、用户周话务汇总情况等数据)的支撑,使用者可自行通过简单的条件设置来定义其关注的目标客(用)户,灵活的设置跟踪周期。部分有明确条件设置的目标客户更可以通过平台提供的专题功能更快速、方便的取得分析结果(如VPN专题)。(3)ETL平台:在自行开发的ETL平台上,使用者可以对逻辑模型进行物理设计,使用类标准SQL脚

5、本实现数据的ETL,并对操作日志、数据质量等进行管理;同时还支持对数据的导出功能(文本/EXCEL等格式),以满足异构数据库系统的数据需求(如集团接口、查询结果导出等)。(4)分析展示平台:通过集成的展示平台,采用多维分析、图表结合、即席查询、GIS等多种展示方式,分析展示平台提供使用者一个简单、直观、有效的数据分析界面,使用者可以根据权限方便的实现数据访问的穿透、钻取以及相关报表的访问。目前除数据挖掘尚在设计开发阶段外。图3系统功能模块[1]三、电信行业特点1.电信企业数据来源:1)支撑系统,包括计费、营帐等;2)网管系统;

6、3)企业办公(OA)系统;4)其他系统。[2]2.电信企业的源数据特点:1)数据量特别大;2)业务系统工作负荷重,7×24小时的工作;3)业务系统性能、实时性的要求较高。[2]实现方法:一、基本环境数据库管理系统:IBMDB2开发平台:Windows,AIX语言:DB2存储过程,Shell编程项目管理:SVN,IBMClearQuery其它第三方软件:QuestCentralforDB2二、ETL概念[2][3]1.数据抽取(Extract)数据抽取是数据源接口,从业务系统中抽取数据,为数据仓库输入数据。典型的数据抽取接口包括

7、数据库接口和文件接口,对于不同数据平台、不同源数据形式、不同性能要求和业务量的业务系统以及不同数据量的源数据,采取不同的数据抽取接口。数据的抽取必须能够充分满足决策支持系统的需要,又要保证不影响业务系统的性能,所以,进行数据抽取时应制定相应的策略,包括抽取方式、抽取时机、抽取周期等等。数据抽取策略有:1)同步实现抽取;2)异步实现抽取。2.数据清洗和转换(Transformation)数据清洗和数据转换是指从业务系统中抽取的数据根据数据仓库系统模型的要求,进行数据的清洗、转换、拆分、汇总等处理,保证来自不同系统、不同格式的数据

8、具有一致性和完整性,并按要求装入数据仓库。数据转换工作进行的时机:1)在抽取过程中进行数据处理;2)使用异步数据加载,以文件的方式处理;3)在数据加载过程中进行数据处理;4)进入数据仓库以后再进行数据处理。3.数据装载(Load)数据装载就是从数据源系统中抽取、转换、清洗后得

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。