欢迎来到天天文库
浏览记录
ID:32076325
大小:1.82 MB
页数:61页
时间:2019-01-31
《etl过程中数据清洗技术的的研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、沈阳航空工业学院硕士学位论文摘要数据的抽取、转换和装入是创建数据仓库系统的重要环节,它将组织机构内多元分散的数据按照主题统一装载到数据仓库中,能够很好地解决组织机构内部数据一致性与信息集成化问题。然而,ETL程序的频繁运行难免会产生大量的“脏数据”,直接导致数据仓库技术由于数据质量而不能产生理想正确的决策分析结果,因此数据在进入数据仓库之前需要进行清洗。数据清洗技术一直是近年来数据仓库领域中的研究热点,其主要任务是从原始数据集中去除不一致的和错误的数据。首先描述了数据质量的基本概念、评价指标及分类等问题,在此基础上按照数据清:洗算法将脏数据划分为“独立型脏数据”、“依赖型脏数据”两类,
2、并给出了相应的解决方法。其次描述了清洗的基本定义及清洗环节,定义了ETL层的数据清洗模型和在元数据库中存储的清洗规则后,提出了一种自动清洗和人为清洗相混合的数据清洗策略。针对中文地址类信息的数据清洗问题,提出了基于特征字符的分词方案,并给出了相应的分词算法。该方案将中文地址类信息按逻辑意义分为省、市、区、街及数字五组信息,通过与元数据库中省、市、区的标准信息匹配保证了分词的准确性。针对中文地址类相似重复记录的处理问题,建立了包含分词规则的元数据库,提出了一种相似重复检测模型,并给出了利用可变权值策略计算中文地址类信息相似度的算法。实验结果表明该方案能有效解决中文地址类重复信息的检测,提
3、高了算法的执行效率及检测精度。关键词:ETL;数据清洗;相似重复记录;特征字符;分词;可变权值沈阳航空工业学院硕士学位论文AbstractTheextraction,transformandloading(ETL)isanimportantsteptoconstructdatawarehousesystem,whichmadethemultipledisperseddataoftheorganizationsloadedintodatawarehouseaccordingtosomesubject,SOthedataconsistencyandinformationintegratio
4、noforganizationcouldberesolvedHowever,manydirtydatamaybeproducedwiththefrequentlyrunningofETLprogram,thecorrectanalysisresultsmaynotbeobtainedfromDWbecauseofthedataquality,SOthedatacleansingstepmustbeneededbeforedataisloadedintoDW.Thetechniqueofdatacleansingisahotissueindatawarehousedomain.which
5、themainfunctionistoeliminateinconsistentanderrordatafromtheinitialdatasets.Afterintroducingthebasicconcepts,estimationtargetandcategorizationofdataquality,thedirtydataisdividedintotwocategories,independencyoneanddependencyoneaccordingtothedatacleansingalgorithm,andtherelatedmethodsareproposedThe
6、basicconceptandstepsofdatacleansingaredescribed,thedatacleansingmodelinETLprocessisdefined,andthecleansingrulestoredinmeta-databaseisdiscussed,thenacombineddatacleansingstrategyusingautomaticandmanualmethodsisproposed,AimingattheissueofChineseaddressinformationcleansing,thesegmentmethodandalgori
7、thmbasedonfeaturewordareproposed,inwhichtheChineseaddressinformationissegmentintofivefields,suchasprovince,city,area,streetandnumber.MatchingwiththestandardinformationofChineseaddressinmeta-database,thesegmentaccuracyCanbeen
此文档下载收益归作者所有