基于数据仓库的企业数据质量控制---毕业论文

基于数据仓库的企业数据质量控制---毕业论文

ID:11502421

大小:2.90 MB

页数:0页

时间:2018-07-12

基于数据仓库的企业数据质量控制---毕业论文_第页
预览图正在加载中,预计需要20秒,请耐心等待
资源描述:

《基于数据仓库的企业数据质量控制---毕业论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、本科毕业论文基于数据仓库的企业数据质量控制DataQualityControlofEnterprisesBasedonDataWarehouse姓名:学号:学  院:软件学院系:软件工程专业:软件工程年级:指导教师:年月摘要数据仓库赋予企业在行业中保持领先地位的能力,数据质量是决定数据仓库成败的关键。然而,经过数十年的研究与实践,业界仍然缺少完整的企业数据质量控制方法。本文提出了基于数据仓库的企业数据质量控制,力求为企业IT人员提供一套指导手册式的解决方案,在基于数据仓库的企业数据质量的各个方面给予指导和建议。这套方法主要包括总体

2、数据质量管理和ETL(数据的抽取、转换、清洗、装载)工具两个方面,分别处理与数据源相关和与数据整合相关的数据质量问题。在本文中,我们对TDQM各阶段使用的技术进行了详细的介绍,就企业数据质量的建模、评估、分析和如何改进数据质量展开了探讨。同时,本文根据ETL工具的分类和实现方式(购买/自行开发),对如何选用和开发合适的ETL工具以及如何控制ETL实施过程本身产生的数据质量问题进行了简单的讨论。关键词:数据仓库;数据质量;总体数据质量管理;ETL工具AbstractDataqualityiscriticaltodatawarehou

3、se,whichenablesanorganizationtomaintainitsleadingpositionintheindustry.However,despitedecadesofactiveresearchandpractice,thefieldlackscomprehensivemethodologiesofenterprise-leveldataqualitycontrol.Here,wedevelopsuchamethodology,theDataQualityControlofEnterprisesBasedo

4、nDataWarehouse,whichaimstoprovidemanual-likesolutionstotheITdepartmentsoforganizations,andtopresentguidanceandrecommendationsinallaspectsofdataqualitycontrolofenterprisesbasedondatawarehouse.ThemethodologyencompassesTotalDataQualityManagement(TDQM)andETL(Extraction,Tr

5、ansformation,Cleansing,Loading)tools,separatelyhandlingproblemsrelatedtodatasourcesanddataintegration.ThispaperhasadetailedexplanationofthetechniquesusedineachstageoftheTDQMmethodology,anddiscussesabouthowtomodel,estimate,analyzeandimprovedataqualityofanorganization.M

6、eanwhile,weprovideabriefintroductiononhowtochooseordevelopETLtoolsthataresuitableforanorganization,aswellashowtodealwithdataqualityproblemsproducedbytheETLprocess.Keywords:DataWarehouse;DataQuality;TotalDataQualityManagement;ETL.目录第一章绪论11.1研究背景11.2概述21.2.1数据仓库的拓扑结构21.

7、2.2数据仓库中的数据质量问题分类31.2.3论文组织结构3第二章数据源数据质量控制42.1定义阶段52.1.1定义IP特征62.1.2定义IP质量72.1.3定义信息系统102.2测量阶段112.2.1数据质量维度112.2.2数据质量指标122.2.3实际评估152.3分析阶段162.3.1数据质量问题分类162.3.2单数据源中孤立点的检测182.3.3探索性数据分析202.3.4数据标记技术在TDQM分析阶段的运用262.4改进阶段262.4.1规范化和重复记录消除262.4.2对数据值空缺的处理282.4.3解决新老系统

8、不兼容问题292.4.4小结29第三章数据仓库数据质量控制303.1ETL工具的功能和分类303.2购买ETL工具313.3自行开发ETL工具343.3.1探测和消除星型模式中的相似重复记录343.3.2ETL工具开发流程383.4ETL过程中的数

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。