数据质量论文:应用于数据质量核查的几项数据挖掘技术研究.doc

数据质量论文:应用于数据质量核查的几项数据挖掘技术研究.doc

ID:51437843

大小:51.00 KB

页数:5页

时间:2020-03-24

数据质量论文:应用于数据质量核查的几项数据挖掘技术研究.doc_第1页
数据质量论文:应用于数据质量核查的几项数据挖掘技术研究.doc_第2页
数据质量论文:应用于数据质量核查的几项数据挖掘技术研究.doc_第3页
数据质量论文:应用于数据质量核查的几项数据挖掘技术研究.doc_第4页
数据质量论文:应用于数据质量核查的几项数据挖掘技术研究.doc_第5页
资源描述:

《数据质量论文:应用于数据质量核查的几项数据挖掘技术研究.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、数据质量论文:应用于数据质量核查的几项数据挖掘技术研究【中文摘要】质量低劣的数据已经成为影响企业正确决策的关键因素,成为制约信息服务的瓶颈。因此,如何高效的管理数据,提高数据质量,使其成为决策部门的有效依据,是具有较高研究价值和实际意义的问题。本文由此背景出发,根据不同类型的数据错误,采用相应检测方法,并通过实现具体程序,验证方法的有效性。本文首先介绍了数据质量的定义、分类、评价指标以及数据质量提高技术。然后总结了数据清洗技术的原理方法。最后针对不同的数据错误类型,给出了相应的解决方法。本文重点给出了异常数据和相似重复记录的检测方法。本文充分考虑数据内

2、部之间的联系,采用基于关联规则的思想对异常数据进行检测。首先,将数据集中的数据进行转换,使其满足关联规则挖掘的条件;然后,在训练集中找出所有的频繁项集,由频繁项集生成关联规则,并将其放入规则库;最后,将测试集中的记录与规则库中的规则进行比对,以此判断记录是否异常。通过实验证明此方法检测异常数据效果良好。本文采用基于权值分组的方法来检测相似重复记录。根据识别事物的能力给不同的属性分配相应的权值,以此提高检测精度;根据关键字段将大数据集分割成不相交的小数据集,再在小数据集中检测相似重复记录,以减少匹配次数;采用位置编码方法计算字段相似度,解决了英文缩写问题

3、和中文字符匹配问题;使用多趟查找技术克服了字符敏感问题。实验证明此方法能够快速准确的检测相似重复记录。【英文摘要】Datainpoorqualityhasbecomeakeyfactorforenterprisetodotherightdecision,andabottleneckofinformationservice.Therefore,howtomanagedataefficientlyandimprovethequalitytomakedataaneffectivebasisfordecision-makingdepartmentisaprob

4、lemwithhighresearchvalueandpracticalsignificance.Inthiscontext,thisdissertationaccordingtothedifferenttypesofdataerrorsthroughimplementingspecificprogramusestheappropriatesolutionstoverifythevalidityofthemethod.First,thisdissertationintroducesthedefinitionofdataquality,classific

5、ation,evaluationindexandthetechnologyofimprovingthedataquality.Second,summarizetheprincipleandthemethodofdatacleansingtechniques.Finally,givethecorrespondingsolutionsfordifferenterrortypesespeciallyontheduplicaterecordsandsimilarabnormaldatadetectionmethod.Fullyconsideringthelin

6、kwithindata,thisdissertationdetectsabnormaldatausingtheideabasedonassociationrules.Firstly,convertthedatainthedatasettomeettheconditionsforminingassociationrules.Secondly,findallthefrequentitemsetsinthetrainingsetandgeneratetheassociationrulesfromthefrequentitemsetsandputthemint

7、otherulebase.Finally,comparetherecordsinthetestsetandrulesintherulebasetodeterminewhethertherecordisabnormal.Theexperimentshowedthatthemethodforthedetectionofabnormaldataperformswell.Thisdissertationusethemethodbasedonweightpackettodetectsimilarduplicaterecords.Assigntheappropri

8、ateweightstodifferentattributesaccordingtotheab

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。