资源描述:
《开题报告面向etl过程的数据质量控制框架设计与实现》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、硕士生:刘闵导师:叶丹软件工程技术中心20092・24内家提纲•:•选题依据及意义♦国内外研克现状弘研克內彖与研克方案*工作进畏与工作计划•:•参考丈献♦ETL(Extract,Transform,Load)ETL完成路操作糸统、蹲教据源的数据抽取,并将教据经过一定的转换操作,最终加我到目的端数据源,是数据集成,数据交换糸统的重要组成部分。OnceD12.0就是典型的ETL工具。■任务往往具有事务特点■增量数据具有不可重复性要求ETL尽可能的能一次性地成功执但低劣的数据质量往往导致ETL的央败♦ETL中存在的数据质量问题模式层1■卖例层!模式层■•不符合唯一性•拼写错误•名称冲突
2、•不符合外键•重复记录•冲突记录•结构冲突•数据时间不一致•字段格式不同•重复记录10-16-1999低质量的数据会导致ETL的执行夬败,同对错谖的数据会彩响企业的分析决策,为企业带来赖夾,因而迫切需要AETL中集成数据质量控制框架。♦:・ETL缺乏统一的数据质量控制框架•:•现有数据质量糸统■业界的质量工具往往只针对禁些特走的问题,没有与ETL糸统很好的结合。■目前数据质量工具与丸量用户交互行为,而丸多数的ETL过程往往需要周期性自动执行,当ETL运行肘,人为交互的要求不能满足。•:•右发■将数据质量控制握架集成到ETL过程中,细化ETL过程,提供可配置的方法将数据质量工具作用
3、于ETL,提當ETL过程执行的成功率.MetadataflowInstancecharacteristics(realmetadata)MappingsbetweensourceandtargetJ」schema选提依据及意义■谏计并卖现面向ETL的数据质量框架,将数据质量具作用于ETL过程・■提供适合于ETL的数据质量工具集合.■设计一套可扩畏接口,据请洗操作.便于用户定制或集成新的数国內外研克现状•商用数据质量工具关注以下问题■字段的解析和才示准化■重复诃录检测■数据的分析统计■数据转换过程中的监控■数据加强♦现有的数据质量工具■商用的:DataExplorer&DataQu
4、ality(Informatica),FirstLogic(BusinessObject),OracleOWB(Oracle),WinPure(WinPure)■开源DataCleaner,Talend■学术界:AJAX,Potter"sWheel,IntelliClean■这些数据质量工具与ETL相对独立,往往只针对特定的教据质量问題。国內外研克现状工具的上匕名称ProfilingParseStandardizeCorrectEnhanceMatch与ETL结DataExplorer有无无无无无无DataQuality有有有有有有无FirstLogic有有有有有有无OWB有有有
5、有有有有WinPure有有有有无有无DataCleaner有有有无无有无Talend无有无有无有无AJAX,Potter"sWheel,IntelliClean主要从数据质量建模角度出发,刻屍数据质量过程.OracleOWB中数据质量工具与ETLx具相互结合,为业界ETL发畏的趋如研克内家及研克方秦Dl的数据质量控制糸统框架pApSabinossnouIOUEnvOontrolIouuelloRffi[]CBRatfile){)adapterJ…adapterJSourceAdaptFilteringManagerProfilingManagerStatisticalmetad
6、ata11nDataOualitvFramework数据统计分析(DataProfiling)♦:♦作用■了解数据质量,分析元数据■輔助ETL的设计过程■輔助数据请理•:•数据统计的维度■字段属性■结构属性ColumnsPatternFormatFormat%CompliantUniqueHdateYYYY-MM-DDDate82%SSN9(3)-9(2)-9(4)USSocialSecurityNumber3%Phone9(3)-9(3)-9(4)USPhoneNumber16%Id9(5)N/AYesContactA@A.AEmail99%No数据统计分析
7、(DataProfiling)♦字段属性■标准度量:RowCount,NullValues,EmptyValue,HighestValue,LowestValue■字符型度量:字符数,单词数,大小写的百分比,字段的最多单词教和最少单词数,非字母单词的百分比■数值型度量:最丸值,最小值,字段的平均值,标准差,方差■肘间类型度量:肘间格式,最丸值,最小值,肘间分布■字段模式度量■数据字典及数据分布♦结构属性■主键字段■参照完整性约束(主-外键关糸丿♦考虑的问题及恩路丸多数的数据统计算