欢迎来到天天文库
浏览记录
ID:35075005
大小:2.39 MB
页数:66页
时间:2019-03-17
《小文件存取优化方法的研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、学校代码:10255学号:2131537东华大学小文件存取优化方法的研究与应用ResearchandApplicationofSmallFilesAccessOptimizationMethod学科专业:计算机科学与技术作者:宋亚龙指导教师:燕彩蓉答辩日期:2016年1月东华大学计算机科学与技术学院2016年1月东华大学学位论文原创性声明本人郑重声明:我恪守学术道德,崇尚严谨学风。所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已明确注明和引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的
2、作品及成果的内容。论文为本人亲自撰写,我对所写的内容负责,并完全意识到本声明的法律结果由本人承担。学位论文作者签名:日期:年月日东华大学学位论文版权使用授权书学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅或借阅。本人授权东华大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密□,在年解密后适用本版权书。本学位论文属于不保密□。学位论文作者签名:指导教师签名:日期:年月日日期:年月小
3、文件存取优化方法的研究与应用小文件存取优化方法的研究与应用摘要随着信息技术的提高和互联网飞速发展,企业和个人数据出现爆炸式增长。研究调查预测到2020年全球数据量将达到35ZB。大数据时代已经来临,传统数据存储方式已经无法满足大数据时代的海量数据存储需求,而以HDFS为代表的分布式文件系统凭借其高可靠性、高可扩展、高容错性、低成本等特点为大数据时代的海量数据存取提供了全新的模式。然而,HDFS在处理小文件时存在存取效率低,元数据信息存储消耗内存大以及系统数据冗余度高等问题。因此海量小文件的存储方法的研究与优化成为国内外研究的热门
4、之一。本文对HDFS分布式文件系统进行了全面分析,并介绍了重复数据删除技术,同时分析了基于HDFS系统存储海量小文件时存在的不足。针对网络中的存在大量的小文件及重复数据,分别采用了相应的的处理策略。本文的主要研究内容和创新点如下:(1)提出基于相似度的小文件合并算法。首先设计了提取文件关键字策略,对文件的关键字利用汉明距离进行相似度计算,将相关的小文件合并成大文件上传到HDFS上;结合小文件合并方案,对小文件的元数据结构、存储位置进行了分析,同时,对小文件的读写操作流程进行了详细的设计,有效地减少了系统的I/O操作,缓解了Nam
5、eNode存储元数据的压力,间接地增加系统的存储容量。(2)针对系统中存在数据高度冗余问题,本文在基于TTTD算法的基础上提出了IOTD优化算法,可以明显地减小文件分块大小的不确定性,提高数据去重率,同时为了加快数据去重中查询索引表的速度,引入RUH表,通过MapReduce编程模型将索引表中最近访问最多的数据块信息放到RUH表,达到减少查询索引表时间的目的。实验结果表明,本文提出的方案在有效减少NameNode的内存使用率,及系统存储冗余数据的同时加快了小文件存取的效率,大大提升了小文件的管理性能。I小文件存取优化方法的研究与
6、应用关键字:小文件,存取优化,HDFS,数据去重II小文件存取优化方法的研究与应用ResearchandApplicationofSmallFilesAccessOptimizationOptimizationMethodABSTRACTWiththeimprovementofinformationtechnologyandtherapiddevelopmentoftheInternet,businessandpersonaldataexplode.Accordingtorelevantresearchshowsthatby20
7、20theglobalamountofdatawillreach35ZB.BigDataerahasarrived,Traditionaldatastoragemethodshavebeenunabletomeetthemassivedatastoragerequirements.HDFS,representeddistributedfilesystem,byitshighreliability,highscalability,highfaulttolerance,lowcost,largedataeraofmassivedat
8、aaccess,providesanewmodelforus,However,whendealingwithsmallfiles,HDFSexistslowaccessefficiency,metadatainformationsystemdatastorage
此文档下载收益归作者所有