etl过程中的数据清洗技术研究与应用

etl过程中的数据清洗技术研究与应用

ID:34480314

大小:2.45 MB

页数:63页

时间:2019-03-06

etl过程中的数据清洗技术研究与应用_第1页
etl过程中的数据清洗技术研究与应用_第2页
etl过程中的数据清洗技术研究与应用_第3页
etl过程中的数据清洗技术研究与应用_第4页
etl过程中的数据清洗技术研究与应用_第5页
资源描述:

《etl过程中的数据清洗技术研究与应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、沈阳航空工业学院硕士学位论文摘要数据的抽取、转换和装入是创建数据仓库系统的重要环节,它将组织机构内多元分散的数据按照主题统一装载到数据仓库中,能够很好地解决组织机构内部数据一致性与信息集成化问题。然而,ETL程序的频繁运行难免会产生大量的“脏数据”,直接导致数据仓库技术由于数据质量而不能产生理想正确的决策分析结果,因此数据在进入数据仓库之前需要进行清洗。数据清洗技术一直是近年来数据仓库领域中的研究热点,其主要任务是从原始数据集中去除不一致的和错误的数据。首先描述了数据质量的基本概念、评价指标及分类等问

2、题,在此基础上按照数据清洗算法将脏数据划分为“独立型脏数据”、“依赖型脏数据”两类,并给出了相应的解决方法。其次描述了清洗的基本定义及清洗环节,定义了ETL层的数据清洗模型和在元数据库中存储的清洗规则后,提出了一种自动清洗和人为清洗相混合的数据清洗策略.针对中文地址类信息的数据清洗问题,提出了基于特征字符的分词方案,并给出了相应的分词算法。该方案将中文地址类信息按逻辑意义分为省、市、区、街及数字五组信息,通过与元数据库中省、市、区的标准信息匹配保证了分词的准确性。针对中文地址类相似重复记录的处理问题,

3、建立了包含分词规则的元数据库,提出了一种相似重复检测模型,并给出了利用可变权值策略计算中文地址类信息相似度的算法。实验结果表明该方案能有效解决中文地址类重复信息的检测,提高了算法的执行效率及检测精度。关键词:ETL;数据清洗;相似重复记录;特征字符:分词:可变权值一1一沈阳航空工业学院硕士学位论文AbstrattTheextractio几transformandloading(ETL)isanimPortantstePtoconstructdatawarehousesystem,whichmadeth

4、emultiP1edisPerseddatoftheor8翻zationsloadedintodatawarehouseaccordingtosomesubject,sothedataconsistencyandinformationintegrationofo电an泣ationcouldberesolved.However,manydirtydatmaybeproducedwiththe触quentlyrunningofE孔Progranl,thecorectanalysisresuitsmaynO

5、tbeobtalnedfromDWbecauseofthedataquality,sothedatadeansingstePmustbeneededbeforedataisloadedintoDWThetechniqueofdatcleansingisahotissueindata加arehousedo姗n,Whichthemainfunctionistoe!1而nateinconsiste爪anderrordatafromtheinitialdatasets.Afterintroducingtheb

6、asicconcePts,estimatinntargetandcategoriZationofdataquality,thedirtydataisdividedintotw0categories,indePendencyoneanddePendencyoneaccordingtothedatacleansingalgorithm,andthereIatedmethodsareProposed.ThebasicconcePtandstePsofdatacleansinsaredescribed,the

7、datac1eansingmodelinETLProcessisdefined,andthecleansingrulestor时inmeta-databaseisdiscused,thenacombin比datcleansingstrate纷us1n8automaticandmanualmethodsisPrOPosed.AimingattheissueofChi朋seaddressinformationcleansing,thesegmentmethodandalgorithmbasedonfeat

8、urewordareProposed,inwhichtheChineseaddressinformationissegmeniintofivefields,suchasProvince,cit丫area.streetandnumberMatchin8withthestandardinformationofChineseaddressinmeta-database,thesegmentacuracycanbeensured.Inordertoelimina

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。