数据清洗算法的研究与应用

数据清洗算法的研究与应用

ID:33933189

大小:1.91 MB

页数:58页

时间:2019-03-01

数据清洗算法的研究与应用_第1页
数据清洗算法的研究与应用_第2页
数据清洗算法的研究与应用_第3页
数据清洗算法的研究与应用_第4页
数据清洗算法的研究与应用_第5页
资源描述:

《数据清洗算法的研究与应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、青岛大学硕士学位论文数据清洗算法的研究与应用姓名:周奕辛申请学位级别:硕士专业:计算机软件与理论指导教师:于忠清20050609摘要随着信息技术的毪速发展,组织的管理人员进行决策分析时对数据的依赖性越来越强。于是在数据库的基础上产生了能够满足决策分析所需要的数据环境一数据仓库。但是在构建数据仓库的过程中,从异构的数据源中导入的数据中存在各种质量问题,使得应用于数据仓库前端的决策支持系统产生错误的分析结果,影响信息服务的质量。所以必须对其进行数据清洗来提高其质量。数据清洗正在成为数据仓库和数据挖掘领域,乃至网络数据处理的一个重要课题。本文首先对数据清洗的知识进行了

2、全面和详细的描述,介绍了数据清洗的概念、意义和国内外研究与应用的现状。对数据清洗技术的原理、方法、评价标准以及基本流程进行了分析和总结。其中重点对属性清洗及重复记录清洗所用到的技术和各种算法进行了深入的研究,并提出了相应的改进算法。在属性清沈中,简单介绍了属性清沈的基本知识和方法,重点研究了如何应用统计分析和人工智能的技术自动检测数据集中属性值的错误,并给出了在数据集上的实验结果及结论。在重复记录清洗中,首先介绍了重复记录清洗的相关知识和基本流程,然后分别就流程中各个步骤所涉及的关键算法进行了深入的研究,并针对各步中算法的缺陷进行了改进。主要包括:①预处理步骤中

3、,改进的排序关键字对数据集排序的方法;②重复记录检测步骤中,针对中文字段值的特点提出的基于编辑距离的字段匹配算法和缩写发现算法;提出了利用有效权值和长度过滤的优化算法进行记录匹配,减少重复记录的检测时问,提高算法的效率;③在数据库级上对重复记录进行聚类的步骤中,针对传统的SNM方法的两个缺陷提出了改进的SNM算法,实验结果表明,改进的SNM算法要优于传统的算法。最后,为解决构建青岛市港务局数据仓库的过程中遇到的数据质量和数据清洗问题,结合前面进行的研究工作设计了一个实验性的数据清洗工具。设计该工具的目的是对这些数据进行数据清洗,同时对本文中提出的改进的算法的有效

4、性进行检验和验证。结果表明改进的算法有较好的效果,基本上能达到实际应用的要求。在本文的结尾,对所做的工作进行了总结,并对未来数据清洗技术的研究方向i差行了展望。关键词:数据清洗;属性清洗;重复记录清洗;字段匹配:编辑距离;缩写发现AbstractWiththerapiddevelopmentofinformationtechnology,organizationalmanagersdependondatamoreandmorewhenmakingtheirdecisions.Onthefoundationofdatabasethereappearsdatawar

5、ehousewhichCansupportdecisionanalysis.Butduringtheconstructionofdatawarehouse,datafromdifferentdatasourcesareinputtedintothedatawarehouse,theremayexistmanydataqualitativeproblems,resultinfalsedecisiveanabrsisandinfluentqualityofinformationservice.Thereisastrongneedtocarryoutadataclea

6、nsingprocesstoimprovethedataquality.Datacleansingisbecominganimportanttopicindatawarehouseanddatamining,aswellaswebdataprocessingfields.Inthispaper,wedepictedtheknowledgeofdatacleansingindetail.Weintroducedtheconcept,meaningandlcurrentresearchandapplicationsituationhomeandabroadofdat

7、acleansing.Wesummarizedanddescribedthetheories,methods,evaluatingstandardsandbasicworkfiowofdatacleansing.Especiallyourresearchingemphasisisonthetechniquesandalgorithmsoffieldcleansingandduplicaterecordscleansing,andweputforwardtherelevantadvancedalgorithms.Infieldcleansing,wesimplyi

8、ntroducedbas

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。