基于hdfs的文件存储与读取的优化策略研究与应用

基于hdfs的文件存储与读取的优化策略研究与应用

ID:35057065

大小:2.68 MB

页数:67页

时间:2019-03-17

基于hdfs的文件存储与读取的优化策略研究与应用_第1页
基于hdfs的文件存储与读取的优化策略研究与应用_第2页
基于hdfs的文件存储与读取的优化策略研究与应用_第3页
基于hdfs的文件存储与读取的优化策略研究与应用_第4页
基于hdfs的文件存储与读取的优化策略研究与应用_第5页
资源描述:

《基于hdfs的文件存储与读取的优化策略研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中文图书分类号:TP391密级:公开UDC:004学校代码:10005硕士学位论文MASTERALDISSERTATION论文题目:基于HDFS的文件存储与读取的优化策略研究与应用论文作者:张程学科:计算机科学与技术指导教师:王全民论文提交日期:2016年6月UDC:004学校代码:10005中文图书分类号:TP391学号:S201307078密级:公开北京工业大学工学硕士学位论文题目:基于HDFS的文件存储与读取的优化策略研究与应用英文题目:RESEARCHANDAPPLICATIONOFTHEOPTIMIZATIONSTRATEGYOFFILESTORAGE

2、ANDREADINGBASEDONHDFS论文作者:张程学科专业:计算机科学与技术研究方向:信息安全申请学位:工学硕士指导教师:王全民副教授所在单位:计算机学院答辩日期:2016年6月授予学位单位:北京工业大学独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名:张程日期:2016年06月26

3、日关于论文使用授权的说明本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。(保密的论文在解密后应遵守此规定)签名:张程日期:2016年06月26日导师签名:王全民日期:2016年06月26日摘要摘要在网络数据量急速增长的现代社会,大数据存储处理技术正在蓬勃发展,其中HDFS(HadoopDistributedFileSystem)系统是大数据存储处理技术中应用最广泛的。由于HDFS的存储机制,在面对海量的小文件时会出现名字节点的

4、内存瓶颈问题,所以对HDFS的文件存储与读取的优化策略的研究与应用,对解决海量小文件存储和大数据处理有着重要的探索价值和实际意义。海量小文件存储平台是随着信息化建设不断深入而被提出的课题,而现代网络资源存在着数量大、文件体积小等特点,本文的研究成果能够为海量小文件存储平台的建设添砖加瓦。论文从海量小文件的特点和HDFS的存储机制入手,分析了HDFS存储与读取文件的策略,提出了一种基于文件关联关系和基于数据块平衡的PS文件合并算法,利用核心的PS文件合并算法构建了HMM(HadoopMergingMiddleware)中间层,所有用户文件的上传下载都要经过HMM中

5、间层,通过实验测试验证能够提高HDFS处理小文件的性能。论文主要工作有:(1)对当前国内外对于海量小文件处理和海量小文件存储平台的现状进行了调研,研究了HDFS工作机制,对建立海量小文件存储平台所需要的技术进行了深入的学习。(2)提出了一种适合海量小文件存储的PS文件合并算法,能够通过文件关联关系和数据块平衡,将小文件组成大文件存储在HDFS,将文件的合并信息存储到Redis,通过该算法能够用尽量少的数据块来存储数据。依照算法构建了HMM中间层来处理海量小文件,当从HDFS获取数据时,利用缓存来提高读取效率。(3)对海量小文件存储平台的用户进行了研究,总结用户的

6、功能需求,使用开源的Hadoop来部署平台开发环境,针对数据资源文件体积小、数量大、非结构化程度高的特点,融合了MySQL关系型数据库与内存型数据库Redis,构建了web海量小文件存储平台。关键词:HDFS;小文件;文件合并;云存储IAbstractAbstractInthemodernsociety,thequantityofnetworkdatagrowrapidly,largedatastoragetechnologyisbooming,theHDFS(HadoopDistributedFileSystem)Systemisthemostwidely

7、usedinlargedatastorageprocessingtechnology.BecauseofHDFSstoragemechanism,inthefaceofthemassivesmallfilenamenodememorybottleneckproblemswouldappear,sotheoptimizationofHDFSfilestorageandreadingstrategiesofresearchandapplication,tosolvethemasssmallfilestorageandtheexplorationofthelarged

8、ataprocessin

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。