欢迎来到天天文库
浏览记录
ID:33951049
大小:1.64 MB
页数:63页
时间:2019-03-02
《基于数据仓库的数据清洗方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、东华大学硕士学位论文基于数据仓库的数据清洗方法研究姓名:周芝芬申请学位级别:硕士专业:计算机应用指导教师:乐嘉锦20040101基于数据仓库的数据漪洗奇法研究摘要在当今世界,金业髂息诧熬要求越来越漶蝴,其中一个重要煎的方西藏慧企遂麓鼗捃戆管理,校撰“述去蘑是篷簸,蹬寨戆盘是楚蔽、(garbagein,garbageout)”这祭滕理,为了支持.正确决策,就要求所管理的数据可靠,没有错误,能准确地反映企业的实际情况,因此企业数据质艟的管理正在获得越来越多的芙注。数据清洗是提潞数据质量的重要途径。数掭仓瘁瑟遣熏楚金数信惑乾翟襄懿薰要侉
2、躐。数蕹仓瘁楚露趣差逛静、爨减戆、不可更新的、隧时闺不繇交讫懿数据集台。它是决策支持懿基础,数据仓库中数据的难确性对于避免做出错误的决策是至濑熬耍的。但是,由于数据仓库中的数据来自多种业务数据源,这些数据源谢能是存穗在不嚣翡硬箨平台上,嫒躅不鞫夔操箨系统,强嚣及这些数据源中获彀寒熬数攥中不可避免速梅褒~些不一致豹数攒。数据清洗鹭蠢静辘是要簿决E}}。t述原因产生的数黼质量问题,因此数据清洗被认为是建娆数据仓库所臻解决的最重要的问题之一。数据质量问蹶中的一种常见情况魁~个现实实钵可能由多个不寒金鞠同载记录来表示,这样弱记录被称佟捆{
3、默重复记录(approximatelyduplicatedrecords)。捡溺秘消除穗经重复谗录楚数瑟瀵洗和撼高数据质量要解抉的主要问题之一。搽测相{娃重复记录静避程也被称为记录匹配过程。本文在对当前的数据清洗问题,特别鼹搽测和消除重复记泶方张,做了凳分懿磺究螽,提爨了纂予RDBMS鼗语录嚣配方法器溃滁数蒸仓瘴中稳议鬟夔记录静方法,潋期淄除数据仓疼中静$g戗重复记录。邋避大数据塞的燕黢,证明本文提出的消除相似重复记录的方法是行之有效的。关键串:数疆硷库数据矮囊数箨涛凌摆戳重复谑录记录疆蘸基于数据仓库的数据滑洗方法研究Abstra
4、ctResearchofDataCleaningMethodBasedonData协台rehouseIneurrclItworld,therequirementofenterpriseinformationizationismuchmoreimmient,inwhicharlimportantaspectismanagementofenterprisedata.Basedupontheprincipleof“Garbagein,garbageout”,datamanageddemandreliable,nomistakeandtr
5、ulyreflectingactualenterprisesituationforsupposingtomakerightdecision.Thereforemanagementofdataqualityacquiresincreasingattention.HoweveLdatacleaningisasignificantmethodtoimprovedataqualitylTheapplicationofdatawarehousemainlyrepresentsthedegreeofenterpriseinformationi
6、zation.Datawarehouseissubject—oriented,compositive,non—renewedandchangeunceasingalongwithtimedatasets,Datawarehouseisthebasisofdecision-making,SOvalidityofdataindatawarehouseisvitalforavoidingmakeingwrongdecision。Inmanycaces,thedataindatawarehousewhichderivefrommulti—
7、operationdatasource.However'datasourceislikelystoredondifferenthardwareplatformandusedifferentOS.Asaresult.thedatafromthesedatasourceabsolutelyexistinconsistentdata.Theobjectiveofdatacleaningistosolvedataqualityissueduetothereasonhereinbefore.Thusdatacleaningisregarde
8、dasoneofthemostimportantprolemsforcreatingdatawarehouse.Onesituationofdataqualityissueisarealisticentitybeingrepresentedbyse
此文档下载收益归作者所有