数据仓库中的数据质量问题研究及数据清洗工具data cleaner的设计实现

数据仓库中的数据质量问题研究及数据清洗工具data cleaner的设计实现

ID:33317514

大小:2.91 MB

页数:62页

时间:2019-02-24

数据仓库中的数据质量问题研究及数据清洗工具data cleaner的设计实现_第1页
数据仓库中的数据质量问题研究及数据清洗工具data cleaner的设计实现_第2页
数据仓库中的数据质量问题研究及数据清洗工具data cleaner的设计实现_第3页
数据仓库中的数据质量问题研究及数据清洗工具data cleaner的设计实现_第4页
数据仓库中的数据质量问题研究及数据清洗工具data cleaner的设计实现_第5页
资源描述:

《数据仓库中的数据质量问题研究及数据清洗工具data cleaner的设计实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、东北大学硕士学位论文数据仓库中的数据质量问题研究及数据清洗工具DataCleaner的设计实现姓名:陈松申请学位级别:硕士专业:计算机应用与技术指导教师:鲍玉斌20031201东北大学硕士学位论文摘要数据仓库中的数据质量问题研究及数据清洗工具DataCleaner的设计实现摘要随着计算机网络和数据库技术的飞速发展以及人们获取数据手段的多样化,我们所拥有的数据资源日益丰富,数据量急剧增加。许多企业在长期的运营过程中积累了大量纷繁复杂的数据,这些数据能够反映出企业生产经营过程中规律性的信息和知识,数据已成为最有价值的

2、企业资产。但是面对数量如此巨大而零乱的数据人工处理是非常困难的。数据仓库就是针对解决上述问题所产生的一种技术方案。数据仓库技术的出现是由于决策支持系统发展的需要。但是数据的价值在于它的质量,基于劣质数据的决策是不可信的。管理者的决策质量与数据质量和可用性直接有关。数据质量问题是制约数据仓库应用的“瓶颈”之一。数据仓库是数据挖掘和决策分析的基础,纠正数据错误是避免错误决策、降低决策风险的重要一环,数据清洗就是用来完成这项艰巨任务的。本文介绍数据质量的概念,对数据质量问题按其类型进行分类,并介绍了解决不同的数据质量问

3、题的相应的数据清洗方法。详细阐述了针对数据仓库中面临的数据质量问题而设计实现的数据清洗工具DataCleaner的体系结构、流程和各个模块的功能。对数据清洗工具DataCleaner主要实现了以下功能:(1)设计并实现了数据源选择和数据转换条件模块,使用户可以方便的从界面选择;(2)设计并实现了数据表浏览模块和数据表信息统计模块,使用户可以在数据清洗过程中可以掌握数据表的信息,从而指导下一步的数据清洗;(3)设计并实现了包括蕴含值分离,分离字段合并,字符型字段规范化,缺失值处理,重复元组检测,异常值检测等等各种数

4、据清洗算法,可以很好地完成数据清洗任务;(4)设计实现了自动清洗向导,极大地方便了对数据清洗缺乏足够了解的用户;(5)提供了可视化界面将清洗结果返回给用户,用户可以对清洗结果进行各种处理,当然也可以选择系统自动处理。关键词数据仓库决策支持数据质量数据清洗关联规则序列关联规则SNM(SortedNeighborhoodMethod)一Ⅱ东北大学硕士学位论文StudyontheDataQualityinDataWarehouseandtheDesignandImplementationoftheDataCleanin

5、gSystem---·DataCieanerABSTRACTWiththedevelopmentofcomputernetworkanddatabasetechniques,peoplehavemoreandmorewaytogetdata,thevolumeofdataincreasesrapidly.Intheprocessofenterprisesdevelopment.aIotofdataarepiledup.HOWtousethesedataandthentodirectthedecisionanaly

6、sisofenterprisesisthekeythattheywinandmakemaximalbenefits.Butitisalmostimpossibletodothejobbyhand.Tosolvetheabovequestions.datawarehouseisananswer.Itneedstoloadandffeshallkindsofdatafromvarioussourcedatabases.Inevitably,therearelotsoferrorsexitinginthesedata.

7、Datawarehouseisthebasisofdatamininganddecisionanalysis,SOcorrectingtheerrorsofdirtydataplayscentralroletoreducingtheriskofwrongdecision。Fromthatweknowhigh·qualitydataiStheneedofdatawarehouse.Whatwillwedotodeal蛾凌it2ItisdatacleaningthathelpUSaccomplishthetask。T

8、histhesisisfocused011thedataqualityproblemsinthedatawarehouseandthecorrespondingdatacleaningmethods。Inthisthesis,wedesignandimplementadatacleaningsystem--DataCleaner.Thesystemstructureand

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。