欢迎来到天天文库
浏览记录
ID:6133502
大小:403.00 KB
页数:7页
时间:2018-01-04
《数据质量和数据清理在电信数据仓库中的应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、数据质量和数据清理在电信数据仓库中的应用DataQuality,DataCleaningandApplyingtoTelecomDataWarehouse关键词:数据仓库;数据质量;数据清理;ETL;构件Keywords:DataWarehouse;DataQuality;DataCleaning;ETL;Component摘要:在研究数据质量问题相关理论的基础上,面对电信企业高质量数据需求,设计了面向电信应用的数据质量控制体系,接着,详细介绍了包含概念定义层、逻辑规范层和物理实现层三层的数据清理框架,最后描述了采用基于构件的设计模式,实现的以数据清理为主要功能的数
2、据加载(ETL)系统。目前该系统已经应用于某电信运营企业数据仓库项目中,效果显著。Abstract:Basedontheresearchofthetheoriesrelatedtodataqualityproblems,andfortherequirementsofhighleveldataqualitytotelecomenterprises,adataqualitycontrolarchitectureorientedtelecomapplicationsisdesigned.Adatacleaningframeworkwiththreetiers,suchas
3、notiondefinedtier,logicnormalizedtierandphysicalimplementedtier,isdiscussed.AnETLsystemforthepurposeofdatacleaningisimplementedbyusingdesignpatternbasedoncomponent.Thesystemisinusedbyatelecomenterprise,andworkedwellnow.1引言当今企业已建设或正在建设数据仓库系统以辅助决策,提高其核心竞争力,这需要将长期积累的大量反映各种业务环境的数据,按照相应主题从同
4、构或异构平台,通过一定的ETL方法和过程将它们进行抽取、过滤、清洗、转换,然后加载到中央数据仓库中进行整合,形成完整的企业业务视图。数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程[1]。数据仓库也被看作是一种过程,即对企业中同(异)种数据源中的数据进行整合、加工和分析的过程。ETL(Extraction,Transformation,Loading)即数据抽取、转换和加载,是数据仓库实现过程中,将数据由数据源系统向数据仓库加载的主要过程。现实世界中的数据源极易受空缺、不一致和噪声数据的侵扰。根据GIGO(garbagein,gar
5、bageout)原理,没有良好的数据质量作后盾,再先进的数据处理技术和分析工具也不能发挥作用,要想数据仓库真正发挥作用,就必须提高业务系统的数据质量。由此看来,数据质量的控制成为数据仓库建设发展过程中越来越引起重视的突出问题,而解决这些问题的过程称为数据清理。数据清理(datacleaning,datacleansing或者datascrubbing)在文献[2]中被定义为:发现和清除数据中的错误和不一致来提高数据的质量。在数据仓库环境下,数据清理是ETL过程的一个重要部分,要考虑数据仓库的集成性与面向主题的需要。数据清理目的是检测数据中存在的错误和不一致,剔除或者
6、改正它们,这样就提高了数据的质量[2]。业务系统数据清理是提升业务系统数据质量的有效手段,是数据仓库实施过程中数据质量管控的源头,是整个数据仓库项目成功的关键。业务系统数据清理工作一方面能有效提升业务系统的数据质量和系统可用性,另一方面也能有效降低整个数据仓库ETL的复杂度和工作量,保证数据仓库中的数据质量。2数据质量问题数据清理主要是针对源数据库,对其中出现二义性、重复、不完整、违反业务或逻辑规则等问题的数据进行相应的清洗操作,在清洗之前需要进行数据质量分析,以找出存在问题的数据,否则数据清洗将无从谈起。2.1数据质量定义文献[3]中数据质量定义为:数据的一致性(
7、consistency)、正确性(correctness)、完整性(completeness)和最小性(minimality)在信息系统中得到满足的程度。文献[4]认为:存在数据质量指示器和数据质量参数两类数据质量衡量指标,用户应根据应用的需求选择其中一部分,在此基础上提出了数据工程中数据质量的需求分析和模型。依据文献,结合电信运营企业的特点,对于数据质量,可以从以下四个方面来定义:l完整性(Completeness),数据是否按规则填写完整;l正确性(Correctness),数据是否满足域定义和业务逻辑要求;l一致性(Consistency),不同系统之间关
此文档下载收益归作者所有