基于hadoop重复数据删除技术的研究和应用

基于hadoop重复数据删除技术的研究和应用

ID:34807768

大小:6.91 MB

页数:74页

时间:2019-03-11

基于hadoop重复数据删除技术的研究和应用_第1页
基于hadoop重复数据删除技术的研究和应用_第2页
基于hadoop重复数据删除技术的研究和应用_第3页
基于hadoop重复数据删除技术的研究和应用_第4页
基于hadoop重复数据删除技术的研究和应用_第5页
资源描述:

《基于hadoop重复数据删除技术的研究和应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要随着晶体管电路越来越接近物理上的性能极限,摩尔定律己经变得失效了,尽管如此,也不能把对大规模数据的处理的希望都寄托在越来越大型的服务器上。假如我们将现有的很多中低端的/商用的机器进行组合起来,构成一个具有专一功能的分布式系统,对大型数据的处理问题就迎刃而解了。分布式计算近年来的发展飞速,Hadoop平台的成熟与稳定成为了使用最为广泛的平台。本文主要从如何提高数据质量,保证高质量记录这个角度出发,并以此为目的,在Hadoop分布式框架基础上设计并实现了一个对重复数据进行删除的平台。本文采用的Hadoop分布式计算框架是开源的,此外,它的稳定性和运算效率

2、都比较高、运行成本低廉、兼容性好,扩充力高,并且采用的Map/Reduce编程模型非常适用于本文所做的研究。如今是信息高速发展的年代,不管是个人还是企事业单位都会随着时间的递增产生越来越多是数据,而产生的这些数据实际上是我们不需要的信息,这时就会出现虽然数据多,但是有用信息少的窘迫局面,也就是常说的“数据爆炸,知识贫乏"的局面。数据质量的高低反映了数据的价值的高低,对于低质量的数据往往是无效不可用的,此时,数据删除这一解决数据质量的技术成为了研究的重点。本文主要专注于重复数据删除。本论文首先介绍了数据删除中重复数据删除的研究背景及其意义,还有相关课题在国

3、内外的研究现状。并针对目前备受瞩目的开源分布式架构Hadoop进行了相关研究,对Hadoop架构的两个核心技术——}Ⅱ)FS分布式文件系统与MapRcducc编程模型进行了详尽的研究与分析。此后,阐述了重复记录删除的相关知识和基本原理及其相应的处理过程。其次,根据Hadoop框架处理数据的特点,搭建并配置了基于Hadoop平台的实验环境,重点对完全重复记录和相似重复记录检测所用到算法作了比较深入的研究。以此为基础,将数据根据关键字段进行排序,经过一次聚类处理后,再用单机模式对第一次聚类的数据再进行一次聚类,实现了对完全重复数据以及相似重复数据的有效删除。

4、经实验和实践验证,采用的相应的算法取得了很好的效果,并且,本文所提出的数据删除框架模型也有很好的实用价值最后,针对本文所做的工作提出了几点不足,并提出了可以对其进行改进和研究的方向。关键词:Hadoop,重复数据,数据删除AbstratWithtransistorcircuitbecomingmoreandmoreclosetothelimitsofphysicalperformance,Moore’SLawhasbecomeinvalidNevertheless,donotpinalltheirhopesinanincreasinglylargeser

5、verabletohandlelarge-scaledata.Ifwehavemanyexistinglow-end/commercialmachinescombined,constituteaspecificfunctionindistributedsystems,large·scaledataprocessingproblemstobesolved.Distributedcomputinghasbeendevelopedrapidlyinrecentyears,andthemostwidelyusedHadoopplatformhasbecomemo

6、reandmorematurityandstabilityuptonow.Thisarticleaimstoimprovedataquality,ensurehighqualityrecording.IhavedesignedandimplementedaplatformtodeletetheduplicatedatabasedontheHadoopdistributedframework.Hadoopdistributedcomputingframeworkwhichisusedinthisarticleisopensourc宅,moreover,it

7、iswithhighstabilityandhighoperatingefficiency,lowrunningcosts,goodcompatibility,highexpansion.AndtheusedM印/Reduceprogrammingmodelisidealforthisarticle’Sresearch.Todayisatimethattheinformationtechnologyhasbeendevelopedrapidly,whetherthecompaniesorindividualswillarisemoreandmoredat

8、a.However,thesedatausuallyisnottheinform

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。