大数据应用中数据唯一性质量检测关键技术研究

大数据应用中数据唯一性质量检测关键技术研究

ID:37105405

大小:7.78 MB

页数:70页

时间:2019-05-17

大数据应用中数据唯一性质量检测关键技术研究_第1页
大数据应用中数据唯一性质量检测关键技术研究_第2页
大数据应用中数据唯一性质量检测关键技术研究_第3页
大数据应用中数据唯一性质量检测关键技术研究_第4页
大数据应用中数据唯一性质量检测关键技术研究_第5页
资源描述:

《大数据应用中数据唯一性质量检测关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、X.IANPOLYTECHNICNIVERITYUS硕士学位论文大数据应用中数据唯一性(中文题名)质量检测关键技术研究Researchondulicatedetectionof(英文题名)pdataualitinbidataqyg:胡康研究生学号:2014170005陈亮)导师(副教授()学院:计算机科学学院学科专业:计算机应用技术:学位类型—学术学fi:2017年学位授予年度¥:音硕士学位论文一性(中文题名)大数

2、据应用中数据唯质量检测关键技术研究(英文题名)Researchonduplicatedetectionofdataualityinbigdataq研究生姓名:胡康学号:2014071005指导教师:陈亮(副教授)()学院:计筧机科学学院学科专业:计算机应用技术学位类型:学术学位学位授予年度:2017学校代码中图分类号TP311UDC密级:□公开□保密涛音MU4硕士学但论太(学术学#)论文题名一性质量检测:大数据应用中数据

3、唯关键技术研究研宄生胡康学号:2014071005:陈亮(副教授)导师学院:计算机科学学院学科专业:计黧机应用技术申请学位:工学硕士答辩委员会主任委员::2017年5月21日答辩日期西安工程大学学位论文原创性声明本人郑重声明:所呈交的学位论文是本人在导师的指导下,独立进行研究工。不包含任何其他个人或作所取得的成果除文中已经注明引用的内容外,本论文集体己经发表或撰写过的作品成果。对本文的研宄做出重要贡献的个人和集体,均已在文中以明确方式标明。。本人完全意识到本声明的法律

4、结果由本人承担学位论文作者签名:曰期:年七月曰西安工程大学学位论文版权使用授权书、本学位论文作者完全了解学校有关保留使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权西安工程大学教学目的使用本学位论文,将全部或部分内容编入有、关数据库进行检索,可以采用影印缩印或扫描等复制手段保存和汇编本学位论文。□保密,在密后适用本授权书。_年解本学位论文属于口不保密,口立即或在口1年口2年后开放使用。学位论文作者签名:指导教师签名:日期:年&月¥

5、日日期:年,月日大数据应用中数据唯一性质量检测关键技术研究摘要:在大数据时代,数据成为有价值的公司资产。对企业数据资产的合理分析与挖掘,可以给企业的管理控制和科学决策提供合理依据,并减少和消除企业经济活动中的风险。公司或企业为了更好地做出决策,往往需要高准确的数据。但是“”由于各种原因,使数据仓库中存在着很多的相似重复数据。这些脏数据导致了错误的分析结果:,进而影响决策。本文主要研究内容如下(1)为了减少检测代价和提高运行效率,基于传统的窗口技术和分块技术,提出了一种相似重复记录检测算法。该算法利用关键

6、字段将数据集进行排序和分一块,并利用滑动窗口技术限制分块间比对。并基于此,设计了种多排序字段改进算法,改进算法对不同字段的分块共同聚类,优先比较重复密度大的分块对,摒弃聚类较差的分块。改进算法减少了检测过程中的数据比较次数,并降低了字段好坏对算法速度的影响。理论和实验分析表明该算法能有效地提高相似重复记录检测的准确率和时间效率。(2)针对海量数据源的相似重复记录检测,采用MapReduce模型对提出的算法再进行并行化改造。将数据集切割分片,并复制分片边缘数据,保证了检测数据集的连续性,使得算法具有高速并行

7、化处理能力。理论和实验分析表明该算法高速。有效的相似重复检测,并不会降低原有算法的查全率和查准率两个指标(3)通过对相似重复检测过程的了解,以及数据常见的问题分析,设计并研一一发了数据唯性质量检测工具,该工具实现了数据唯性检测分析,帮助企业了解数据质量,辅助了业务系统应用能力成熟度评价的建立。对于挖掘应用系统存在的问题与不足,预测企业未来业务的运营状况和关注重点提供了有效的帮助。图32幅,表2个,参考文献53篇一关键词:相似重复记录检测性;数据质量;应用能力成熟度;数据唯中图分类号:TP311IRe

8、searchonduplicatedetectionofdataqualityinbigdataAbstract:Intheeraofbigdata,dat

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。