探索关系数据库数据清理技术研究

探索关系数据库数据清理技术研究

ID:35190195

大小:1.52 MB

页数:63页

时间:2019-03-21

探索关系数据库数据清理技术研究_第1页
探索关系数据库数据清理技术研究_第2页
探索关系数据库数据清理技术研究_第3页
探索关系数据库数据清理技术研究_第4页
探索关系数据库数据清理技术研究_第5页
资源描述:

《探索关系数据库数据清理技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、长春工业大学硕士学位论文关系数据库数据清理技术研究姓名:汪雪申请学位级别:硕士专业:计算机应用技术指导教师:逄焕利20070301长奋T业人学硕J。学位论文摘要在当今世界,企业信息化的要求越来越迫切,其中一个重要的方面就是企业的数据的管理。根据“进去的是垃圾,出来的也是垃圾”这条原理,为了支持正确决策,就要求所管理的数据可靠,没有错误,能准确地反映企业的实际情况,因此企业数据质量的管理正在获得越来越多的关注。在现实中,数据一般都存在各种各样数据质量问题,含有各种类型脏数据。数据清理是提高数据质量的重要途径。针对这一课题,论文包括如下几个

2、方面的研究工作:·相似重复记录清理对于相似重复记录的清理,本文着重从重复记录识别和相似记录检测两方面进行了研究。重复记录识别本文主要研究了基本邻近排序方法和优先队列算法;相似记录匹配本文分析了几种核心的字段匹配算法,针对字段值的特点采用基于编辑距离的字段匹配算法,同时设计了利用有效权值和长度过滤的优化算法进行记录匹配,减少相似重复记录的检测时间,提高算法的效率。·空缺数据清理对于空缺数据的清理,本文设计了一种清理方案。首先分析数据的可用性;然后删除不可用记录;最后,对可用记录通过选用填充空缺值的方法来处理该记录的空缺数据,从而完成数据源

3、中空缺数据的清理。空缺数据,并对判定树归纳法进行了变形。度也较高。·错误数据清理本文着重分析了判定树归纳的方法来处理实验证明,判定树归纳变形算法速度快精针对数据源中出现的错误数据,研究了如何采用业务规则这种方法来检测错误数据的重要性,并设计了将数据分类与平滑结合的算法去除噪声。这种算法既能对数据进行平滑,减少孤立点出现的可能,又不会出现因为进行平滑而改变了数据所处类的问题。·数据清理框架结合以上所分析和研究的算法,本文设计了一种数据清理框架。它是集成了一系列数据清理方法,并能利用具体业务知识、可扩展的数据清理工具框架。这样方便使用者从丰

4、富的数据清理工具中选择适合领域问题的清理方法,从而提高数据清理算法在不同应用中的清理效果。k春丁业大学硕J‘学位论文关键词:数据清理相似重复记录空缺数据清理错误数据清理数据清理框架II长春T业大学硕}‘学位论文AbstractNowadays,thedemandofinformationlevelofenterpriseismoreandmoreurgent,themanagementfortheenterpriseinformationisoneimportantaspect.Accordingtotheprincipleof“gar

5、bagein,garbageout",itneedstheenterprisehasreliabledata,truedatawhichreflectactualcircumstanceoftheenterprisewiththeobjectofsupportingdecisionmaking.Therefore,theresearchpayscloseattentiontothemanagementofdataqualityoftheenterprise.Inreality,thedatausuallyexistallkindsofp

6、roblemsfordataqu丑lity,andhaveavarietyofdirtydata.DataCleaningisanimportantmethodforimprovingdataquality.Aimingatthis,thepapercontainstheresearchofsomeaspectasfollows:。CleanapproximatelyduplicatedrecordsInordertocleanapproximatelyduplicatedrecords,thepapermainlyresearches

7、onrecordsortandresemblerecorddetecting.RecordsortanlysesSortedNeiberhoodStrategy,PriorityQueueStrategy.Resemblerecorddetectingstudiesforthematchproblemsbetweenfields.Weputforwardthefieldmatchalgorithmandabbreviation-discoveredalgorithmbasedoneditdistance.Inrecordmatch,we

8、alsocameupwiththeoptimizedmethodusingvalidweightvalueandlengthfilteringtoreducetherantimeof硎酬algorithma

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。