欢迎来到天天文库
浏览记录
ID:32080640
大小:2.07 MB
页数:53页
时间:2019-01-31
《分布式文件系统中数据压缩策略的的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、AThesisSubmittedinPartialFulfillmentoftheRequirementsFortheDegreeofMasterofEngineeringResearchonDataCompressioninDistributedFileSystemCandidate:FuNingMajor:ComputerArchitectureSupervisor:Prof.FengDanHuazhongUniversityofScienceandTechnologyWuhan,Hubei430074,P.R.ChinaJan.,2014万方数据独创性声明本人声明所呈
2、交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:日期:年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学
3、位论文。保密□,在________年解密后适用本授权书。不保密□。(请在以上方框内打“√”)学位论文作者签名:指导教师签名:日期:年月日日期:年月日万方数据华中科技大学硕士学位论文摘要随着互联网数据信息的爆炸式增长,以及现今云计算、云存储环境下大规模数据密集型应用的蓬勃发展,分布式文件系统以其高可靠性,高吞吐率以及海量的存储能力等优点,受到了学术界和工业界越来越多的重视,同时也面临着越来越多的挑战。数据压缩通过对数据进行重新编码和进一步组织,可起到缩减数据量的效果。将其运用到分布式文件系统中,可以通过增加部分计算量,显著减少存储空间、传输带宽消耗,提高数据传输、处理效率。然
4、而目前分布式文件系统中压缩策略的应用仍然存在许多问题,没有根据分布式文件系统的应用特性进行有效地优化定制。通过将各类数据压缩算法集成到分布式文件系统中,可以分析不同的非结构化大数据集的压缩率,以及各类压缩算法对分布式文件系统IO吞吐率的影响,并由此发现了以下四个问题:非结构化数据多样性需要系统进行压缩率预测;压缩和解压缩速率成为了整个文件读写流程的瓶颈;各压缩算法压缩与解压缩的不对称性会对整体吞吐率造成不同影响;全文件压缩极大地限制了压缩算法的应用场景和范围。在对上述问题进行充分分析研究的基础上,根据分布式文件系统按块存储的应用特点,分块检测、分块压缩的方案被提出并实现。方
5、案首先将待写入文件预先分块,分别对各分块进行压缩率预测及压缩,然后再写入到数据服务器上。通过分块检测,可以更好地应对各种待压缩数据,有效地发现不适合压缩的数据类型及数据块,避免不必要的压缩增加读写文件所花费时间,浪费CPU以及内存资源。;通过分块压缩,可以消除传统压缩策略带来的全文件压缩弊端,并且将数据压缩过程与传输过程部分重叠,充分利用客户端的计算资源,在微量影响压缩率的情况下,减轻数据压缩带来的时间开销,从而减轻压缩策略对分布式文件系统吞吐率的影响。测试结果表明,分块检测策略可以很好地预测待压缩数据的压缩率,误差范围在10%以内;分块压缩策略将文件读写速率相较于传统的边
6、压缩边传输方案提升了两倍以上。关键词:数据压缩,分布式文件系统,分块检测,分块压缩I万方数据华中科技大学硕士学位论文AbstractWiththeexplosivegrowthofInternetdata,aswellasthedevelopmentofdata-intensivelarge-scalesystemsappliedincloudcomputingenvironment,distributedfilesystemhasattractedmoreandmoreattentionofexpertsforitshighreliability,highthroughp
7、utandmassivestoragecapacity,whilealsofacingmoreandmorechallenges.Datacompressionalgorithmcanachievetheeffectofreducingthedatacapacitybyrecodingdata,whichcanbeappliedtothedistributedfilesystembyincreasingsomecalculation,inordertoreducestorage,bandwidthconsumpti
此文档下载收益归作者所有