欢迎来到天天文库
浏览记录
ID:37105405
大小:7.78 MB
页数:70页
时间:2019-05-17
《大数据应用中数据唯一性质量检测关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、X.IANPOLYTECHNICNIVERITYUS硕士学位论文大数据应用中数据唯一性(中文题名)质量检测关键技术研究Researchondulicatedetectionof(英文题名)pdataualitinbidataqyg:胡康研究生学号:2014170005陈亮)导师(副教授()学院:计算机科学学院学科专业:计算机应用技术:学位类型—学术学fi:2017年学位授予年度¥:音硕士学位论文一性(中文题名)大数
2、据应用中数据唯质量检测关键技术研究(英文题名)Researchonduplicatedetectionofdataualityinbigdataq研究生姓名:胡康学号:2014071005指导教师:陈亮(副教授)()学院:计筧机科学学院学科专业:计算机应用技术学位类型:学术学位学位授予年度:2017学校代码中图分类号TP311UDC密级:□公开□保密涛音MU4硕士学但论太(学术学#)论文题名一性质量检测:大数据应用中数据
3、唯关键技术研究研宄生胡康学号:2014071005:陈亮(副教授)导师学院:计算机科学学院学科专业:计黧机应用技术申请学位:工学硕士答辩委员会主任委员::2017年5月21日答辩日期西安工程大学学位论文原创性声明本人郑重声明:所呈交的学位论文是本人在导师的指导下,独立进行研究工。不包含任何其他个人或作所取得的成果除文中已经注明引用的内容外,本论文集体己经发表或撰写过的作品成果。对本文的研宄做出重要贡献的个人和集体,均已在文中以明确方式标明。。本人完全意识到本声明的法律
4、结果由本人承担学位论文作者签名:曰期:年七月曰西安工程大学学位论文版权使用授权书、本学位论文作者完全了解学校有关保留使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权西安工程大学教学目的使用本学位论文,将全部或部分内容编入有、关数据库进行检索,可以采用影印缩印或扫描等复制手段保存和汇编本学位论文。□保密,在密后适用本授权书。_年解本学位论文属于口不保密,口立即或在口1年口2年后开放使用。学位论文作者签名:指导教师签名:日期:年&月¥
5、日日期:年,月日大数据应用中数据唯一性质量检测关键技术研究摘要:在大数据时代,数据成为有价值的公司资产。对企业数据资产的合理分析与挖掘,可以给企业的管理控制和科学决策提供合理依据,并减少和消除企业经济活动中的风险。公司或企业为了更好地做出决策,往往需要高准确的数据。但是“”由于各种原因,使数据仓库中存在着很多的相似重复数据。这些脏数据导致了错误的分析结果:,进而影响决策。本文主要研究内容如下(1)为了减少检测代价和提高运行效率,基于传统的窗口技术和分块技术,提出了一种相似重复记录检测算法。该算法利用关键
6、字段将数据集进行排序和分一块,并利用滑动窗口技术限制分块间比对。并基于此,设计了种多排序字段改进算法,改进算法对不同字段的分块共同聚类,优先比较重复密度大的分块对,摒弃聚类较差的分块。改进算法减少了检测过程中的数据比较次数,并降低了字段好坏对算法速度的影响。理论和实验分析表明该算法能有效地提高相似重复记录检测的准确率和时间效率。(2)针对海量数据源的相似重复记录检测,采用MapReduce模型对提出的算法再进行并行化改造。将数据集切割分片,并复制分片边缘数据,保证了检测数据集的连续性,使得算法具有高速并行
7、化处理能力。理论和实验分析表明该算法高速。有效的相似重复检测,并不会降低原有算法的查全率和查准率两个指标(3)通过对相似重复检测过程的了解,以及数据常见的问题分析,设计并研一一发了数据唯性质量检测工具,该工具实现了数据唯性检测分析,帮助企业了解数据质量,辅助了业务系统应用能力成熟度评价的建立。对于挖掘应用系统存在的问题与不足,预测企业未来业务的运营状况和关注重点提供了有效的帮助。图32幅,表2个,参考文献53篇一关键词:相似重复记录检测性;数据质量;应用能力成熟度;数据唯中图分类号:TP311IRe
8、searchonduplicatedetectionofdataqualityinbigdataAbstract:Intheeraofbigdata,dat
此文档下载收益归作者所有