欢迎来到天天文库
浏览记录
ID:34538365
大小:477.28 KB
页数:5页
时间:2019-03-07
《基于kfs分布式文件系统元数据模型的改进_李媛媛》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第35卷第4期大连交通大学学报Vol.35No.42014年8月JOURNALOFDALIANJIAOTONGUNIVERSITYAug.2014文章编号:1673-9590(2014)04-0097-05基于KFS分布式文件系统元数据模型的改进11222李媛媛,赵慧敏,肖鹏,王海文,尹艳辉(1.大连交通大学软件学院,辽宁大连116028,2.大连工业大学信息科学与工程学院,辽宁大连116034)*摘要:研究了云计算环境下的分布式文件系统KFS的系统架构,对于海量数据存储
2、的云存储系统来说元数据管理效率是关键,通过分析KFS文件系统的元数据模型,提出了基于KFS分布式文件系统元数据的改进模型,即利用内存缓冲策略,对待插入的元数据进行预处理并批量插入,减少查找和分裂次数,大大提高了KFS文件系统的数据访问效率.最后通过算法复杂度的分析,证明该改进算法能有效提+高分布式文件系统KFS的元数据服务器的效率.同时该改进模型对于采用B树索引机制来集中管理元数据的类似系统同样适用.+关键词:云计算;KFS;元数据;B树;分布式文件系统文献标识码:ADOI:10.13291/j.cnki.djdxac.2014.04.0230引言KFS的元数
3、据服务器的效率.云计算的兴起给信息时代带来了飞速的发展,1KFS文件系统体系结构随着数据爆炸式的增长,面向大规模海量数据存储1.1KFS文件系统原理[1-2]的时代已经到来.分布式云存储系统已经被广KFS和Google的GFS分布式文件系统的体系泛地应用于大型搜索引擎企业和各类大型企业中.结构类似,如图1所示,KFS系统由三部分组成,分在大规模海量数据存储系统中,对于云存储别是元数据服务器(metaserver)、数据块服务器[3]系统来说元数据管理效率是关键.本文研究了(chunkserver)和客户端API(clientlibrary)组成.面向海量数据存
4、储的分布式文件系统KFS(Kos-[4]moxFileSystem)的体系结构,分析了KFS系统中元数据管理模型.由于分布式文件系统存储着海量数据,IO操作本身就是速度瓶颈.在云系统中,当海量数据频繁更新,元数据的索引树也跟着频繁检索、更新、重构,这样大大降低了元数据的访问效率.因此本文提出了利用内存缓冲策略,先对元数据进行相应预处理并批量插入,来减少插入数据时,对元数据索引树的遍历次数.当索引树结点达到饱和时考虑其兄弟结点情况,来减少结点的分裂次数,即索引树的重构次数,以此来提高+[5]系统元数据的访问效率.最后将改进的B树算法在开源的KFS系统中实现,通过
5、算法复杂度图1KFS的系统结构的分析,该改进算法能有效提高分布式文件系统*收稿日期:2013-07-08基金项目:辽宁省教育厅科学研究计划资助项目(L2011077)作者简介:李媛媛(1980-),女,讲师,硕士,主要从事云计算、大数据处理的研究E-mail:171979166@qq.com.98大连交通大学学报第35卷+元数据服务器使用B树存储分布式文件系2.2改进元数据模型算法+统命名空间,KFS中元数据服务器唯一.一个文件改进元数据模型针对元数据B树的插入算被切割成许多固定大小的文件块block,文件块法进行改进,其主要步骤:block被以chunk的方
6、式存储在独立的数据块服(1)将关键字批量读入到内存中,将待插入务器上,每个数据块服务器上可能存储不同文件的关键字序列进行预排序;+的block,一个block会被存在不同的数据块服务(2)对B树进行随机检索,寻找插入位置,器上,客户端clientlibrary提供文件系统交互访问如果检索到是非叶子结点,则把结点上的关键字的API.作为分界关键字对待插入关键字进行分割.否则1.2KFS系统中的元数据模型把各子序列插入到叶子结点,叶子结点中的原关如图2所示,KFS系统中的元数据服务器使用键字和刚插入的子序列形成新的临时结点.++B树存储分布式文件系统的全局文件系统
7、命名空(3)比较临时结点关键字个p与m(m为B+间,采用B树进行元数据空间管理能大大提高系树的阶)大小,如果p达到了上界m(即该结点已统查找和插入、删除、合并、分裂的效率.但由于分满),则判断它的右兄弟结点,若其右兄弟结点未布式文件系统存储着海量数据,IO操作本身就是满,那么将一部分数据移到兄弟结点中,修改父节+速度瓶颈.当海量数据频繁更新,B索引树也跟着点中关键字(因为临时结点及其兄弟结点的关键频繁检索更新,尤其在元数据服务器启动并初始化字范围改变了);若兄弟结点也满了,则在临时结+B索引树时,一个个插入结点效率极其低下.因点分裂成个结点,每个结点可能含有m
8、或m-1此,对唯一元数据服务器性能的改
此文档下载收益归作者所有