资源描述:
《基于数据仓库的企业数据质量控制---毕业论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、本科毕业论文基于数据仓库的企业数据质量控制DataQualityControlofEnterprisesBasedonDataWarehouse姓名:学号:学 院:软件学院系:软件工程专业:软件工程年级:指导教师:年月摘要数据仓库赋予企业在行业中保持领先地位的能力,数据质量是决定数据仓库成败的关键。然而,经过数十年的研究与实践,业界仍然缺少完整的企业数据质量控制方法。本文提出了基于数据仓库的企业数据质量控制,力求为企业IT人员提供一套指导手册式的解决方案,在基于数据仓库的企业数据质量的各个方面给予指导和建议。这套方法主要包括总体
2、数据质量管理和ETL(数据的抽取、转换、清洗、装载)工具两个方面,分别处理与数据源相关和与数据整合相关的数据质量问题。在本文中,我们对TDQM各阶段使用的技术进行了详细的介绍,就企业数据质量的建模、评估、分析和如何改进数据质量展开了探讨。同时,本文根据ETL工具的分类和实现方式(购买/自行开发),对如何选用和开发合适的ETL工具以及如何控制ETL实施过程本身产生的数据质量问题进行了简单的讨论。关键词:数据仓库;数据质量;总体数据质量管理;ETL工具AbstractDataqualityiscriticaltodatawarehou
3、se,whichenablesanorganizationtomaintainitsleadingpositionintheindustry.However,despitedecadesofactiveresearchandpractice,thefieldlackscomprehensivemethodologiesofenterprise-leveldataqualitycontrol.Here,wedevelopsuchamethodology,theDataQualityControlofEnterprisesBasedo
4、nDataWarehouse,whichaimstoprovidemanual-likesolutionstotheITdepartmentsoforganizations,andtopresentguidanceandrecommendationsinallaspectsofdataqualitycontrolofenterprisesbasedondatawarehouse.ThemethodologyencompassesTotalDataQualityManagement(TDQM)andETL(Extraction,Tr
5、ansformation,Cleansing,Loading)tools,separatelyhandlingproblemsrelatedtodatasourcesanddataintegration.ThispaperhasadetailedexplanationofthetechniquesusedineachstageoftheTDQMmethodology,anddiscussesabouthowtomodel,estimate,analyzeandimprovedataqualityofanorganization.M
6、eanwhile,weprovideabriefintroductiononhowtochooseordevelopETLtoolsthataresuitableforanorganization,aswellashowtodealwithdataqualityproblemsproducedbytheETLprocess.Keywords:DataWarehouse;DataQuality;TotalDataQualityManagement;ETL.目录第一章绪论11.1研究背景11.2概述21.2.1数据仓库的拓扑结构21.
7、2.2数据仓库中的数据质量问题分类31.2.3论文组织结构3第二章数据源数据质量控制42.1定义阶段52.1.1定义IP特征62.1.2定义IP质量72.1.3定义信息系统102.2测量阶段112.2.1数据质量维度112.2.2数据质量指标122.2.3实际评估152.3分析阶段162.3.1数据质量问题分类162.3.2单数据源中孤立点的检测182.3.3探索性数据分析202.3.4数据标记技术在TDQM分析阶段的运用262.4改进阶段262.4.1规范化和重复记录消除262.4.2对数据值空缺的处理282.4.3解决新老系统
8、不兼容问题292.4.4小结29第三章数据仓库数据质量控制303.1ETL工具的功能和分类303.2购买ETL工具313.3自行开发ETL工具343.3.1探测和消除星型模式中的相似重复记录343.3.2ETL工具开发流程383.4ETL过程中的数