面向农业科学数据的分布式存储系统的研究与实现

面向农业科学数据的分布式存储系统的研究与实现

ID:10369947

大小:1.66 MB

页数:76页

时间:2018-07-06

面向农业科学数据的分布式存储系统的研究与实现_第1页
面向农业科学数据的分布式存储系统的研究与实现_第2页
面向农业科学数据的分布式存储系统的研究与实现_第3页
面向农业科学数据的分布式存储系统的研究与实现_第4页
面向农业科学数据的分布式存储系统的研究与实现_第5页
资源描述:

《面向农业科学数据的分布式存储系统的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中文图书分类号:TP391密级:公开UDC:004学校代码:10005硕士学位论文MASTERALDISSERTATION论文题目:面向农业科学数据的分布式存储系统的研究与实现论文作者:黄朝光学科:计算机科学与技术指导教师:陈彩论文提交日期:2015年6月UDC:004学校代码:10005中文图书分类号:TP391学号:S201207002密级:公开北京工业大学工学硕士学位论文题目:面向农业科学数据的分布式存储系统的研究与实现英文题目:RESEARCHONDISTRIBUTEDSTORAGESYSTEMOFAGRICULTURALSCIENCEDATAANDITSIMPLEMENTION论文

2、作者:黄朝光学科专业:计算机科学与技术研究方向:计算机软件与理论申请学位:工学硕士指导教师:陈彩副教授所在单位:计算机学院答辩日期:2015年6月授予学位单位:北京工业大学独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名:黄朝光日期:2015年6月5日关于论文使用授权的说明本人完全了解北京工业大学有关保留、使用学位论文

3、的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。(保密的论文在解密后应遵守此规定)签名:黄朝光日期:2015年6月5日导师签名:陈彩日期:2015年6月5日摘要摘要农业科学数据存储是农业科学研究的重要部分。现有农业存储系统在性能、存储容量、数据的可靠性、存储成本等方面存在很大的不足。为了解决农业科学数据的PB级非结构化且形式多样的数据存储难题,本文对农业科学数据文件进行深入分析,并展开对分布式存储技术的研究,提出了基于开源云平台Hadoop的分布式存储系统的解决方案。取得的主要成果如下:1)根据农业科

4、学数据的自身特点与应用需求,本文设计了面向农业科学大数据的分布式存储系统的框架模型。该模型将非结构化的文件数据存入改进的HDFS架构中,将异构、结构化的属性数据存入HBase数据库系统,给出了保证数据文件与数据属性之间的关联性的设计方案,并且在Client端与数据节点端设置缓存,提高了文件的存取效率。2)面对农业科学数据中含有海量小文件的情况,本文给出了基于多属性的海量农业科学小文件合并存储策略。通过将农业科学数据中的小文件按照特定属性进行分类,将属于同一分类的数据合并成一个大的聚合文件,有效的降低了海量小文件对中心节点内存的消耗,提高了文件的存取效率;通过创建并缓存了小文件到聚合文件的索引

5、,改善系统中农业科学数据读取的性能。3)针对农业科学数据文件因季节性强而导致的热点数据问题,提出了动态副本管理策略,包括两个方面的内容:一方面,基于文件访问频率的动态副本添加和删除方法,通过统计文件在固定的时间内访问频率,计算出文件使用的热度,并综合考虑统计周期、文件缓存等因素,动态调整文件副本的数量;另一方面,基于节点状态的副本动态放置方法,通过全面的考虑描述数据节点状态的多个参数,计算每个节点的性能,选择最优的存放节点,以改善系统性能以及文件读取效率。基于上述研究成果,本文设计并实现了面向农业科学大数据的分布式存储系统AGRFS。AGRFS实现了基本功能模块以及用户访问接口,并且搭建了一

6、个Hadoop集群,通过实验来验证了上述策略的可行性以及本系统的可用性。结果表明,本文提出的小文件存储策略以及动态副本管理策略提高了小文件的读写操作效率,优化了系统的性能,同时本文设计的分布存储系统也能很好解决农业科学数据存储问题。关键词:农业科学数据;分布式存储;HDFS;小文件;动态副本管理-I-AbstractAbstractAgriculturalscientificdatastorageisanimportantpartofagriculturalscientificresearch.Thetraditionalstoragesystemhasalotofdeficienciesi

7、ntheperformance,storagecapacity,datareliability,storagecostetc.InordertosolvethePBlevelandunstructuredandvariousformsofagriculturalscientificdatastorageproblem,thispaperdepthanalysistheagriculturalscientifi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。