欢迎来到天天文库
浏览记录
ID:37375355
大小:5.60 MB
页数:64页
时间:2019-05-22
《基于HDFS的华图在线文库系统数据存储与管理研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、中图分类号TP319UDC004.4硕士学位论文学校代码!Q533密级公开基于HDFS的华图在线文库系统数据存储与管理研究ResearchofDataStorageandManagementonHuatuOnlineLibrarySystemBasedonHDFS作者姓名学科专业研究方向学院(系、所)指导教师:杨灿:计算机科学与技术:计算机应用:信息科学与工程学院:王国军教授论文答辩日期迎f;坌3=2盈答辩委员会主席中南大学二。一三年五月原创性声明本人声明,所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了论文中特另tlDH以标注和致谢的地方外
2、,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我共同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。作者签名:如达必日期:篮B年_上月-D-日f学位论文版权使用授权书本人了解中南大学有关保留、使用学位论文的规定,即:学校有权保留学位论文并根据国家或湖南省有关部门规定送交学位论文,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论文。同时授权中国科学技术信息研究所将本学位论文收录到《中国学位论文全文数据库》,并通过网络向社会公众提供信息服务。期:坦f!钍
3、月且日基于HDFS的华图在线文库系统数据存储与管理研究摘要:作为用户共享信息的平台,文库系统为用户带来了效率和方便,然而,随着用户数据的增长,使用量的加大,文库资源的形式和种类也越来越多,成指数倍增长的海量数据资源给存储系统带来了难题,如何高效存储和管理这些数据成为急待解决的问题。云存储技术的出现,使高效存储和管理这些海量数据成为可能。本文选取了当前非常流行的云平台Hadoop做为在线文库系统的存储平台,利用Hadoop下的云存储文件系统HDFS存储和管理在线文库系统的文档文件。HDFS只是为了解决一般性的数据存储和管理难题,简单将其应用于在线文库系统不能投入实际的应用,必
4、须作必要的改进。在线文库系统的文档资料一般为word、pdf,txt之类的文本文件,这些类型的文件都比较小,90%以上的文档大小在32KB到20MB之间。HDFS的元数据信息是存储在元数据节点的内存中,因此在存储海量的小文件时,会导致HDFS元数据节点(NameNode)内存的过量消耗,进而降低整个HDFS系统的存储容量,因此本文提出了一种将小文件合并成大文件的存储优化方案,有效地减少了元数据节点的内存损耗。另一方面,考虑到合并后存取速度的折损,本文还提出了一种数据预取机制,该机制包括两级缓存,通过这两级缓存可以大大提升用户文件读取的流畅度,缓解云存储元数据管理节点的压力。
5、图22幅,表3个,参考文献60篇。关键词:云存储;海量存储;Hadoop;HDFS;文件系统分类号:TP319ResearchofDataStorageandManagementonHuatuOnlineLibrarySystemBasedonHDFSAbstract:Asaplatformforuserstoshareinformation,theonlinel洳rarysystembringsuserstoefficiencyandconvenience,However,withthegrowthoftheamountofdata,theincreaseofuserus
6、age,theformsandtypesofresourcesoflibrarysystemareaugmentandvaried,exponentialgrowthofmassdataresourcesbroughtproblemstothestoragesystem,andhowefficientstorageandmanagementofthesedatabecomeapressingproblem.Itispossibletoefficientlystoreandmanagethesehugeamountsofdatasincetheemergenceofcloud
7、storagetechnology.Inthisarticle,thecloudcomputingplatformHadoop,whichisverypopularcurrently,WaSselectedaSdatastorageandmanagementplatformoftheonlinelibrarysystem.WeusetheHadoopdistributedfilesystem(HDFS)tostoreandmanagethedocumentfilesofonlinelibrarysystem.Sin
此文档下载收益归作者所有