欢迎来到天天文库
浏览记录
ID:33772924
大小:7.62 MB
页数:72页
时间:2019-03-01
《基于对象分布式文件系统的存储缓存研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、私·用雹'彳吁搬大·予题硕士详学位细摘论文要指导教师万健教授杭州电子科技人学硕十学位论文详细摘要随着信息技术的发展,当今社会的数据信息量呈指数增长,很多存储平台的量级都上升为PB级别。作为海量数据存储系统在用户层上普遍使用的管理平台一分布式文件系统已经日渐成熟,其可以以透明方式连接共享文件夹和文件服务器,将不同位置的文件数据映射到单一的逻辑层次,以达到用户访问和管理的便捷性,它的高效性、通用性、可靠性、扩展性也一直都是人们研究的热点。基于对象分布式文件系统在海量存储时表现出了更好的性能,越来越受到广泛关注。现如今在成型的基于对象分布式文件系统上,存储集群对数据对象的部署往
2、往都是单一层次分布的,它根据对象ID近似随机的把存储内容分布到各个基于对象存储设备当中。其中,在每个存储设备的智能化管理当中,已经拥有了利用系统内存缓存当台存储设备中热点文件的缓存机制。但是,对于整个存储集群来说,还缺少针对所有存储数据的缓存机制。而对象文件系统也恰好因为没有对访问频率比较高的热点文件进行缓存处理而存在问题,所以在基于对象分布式文件系统中对网络缓存技术的引入有着重大的研究意义。在该研究领域中,网络缓存按照其部署位置一般分为两类进行研究:(1)把代理服务器部署在近客户端,其负责分析与之相近的客户端群的访问特征而后进行缓存。(2)把代理服务器部署在近服务器端,
3、其负责全部存储数据的访问特征而后对高频访问对象进行缓存。在基于对象分布式文件系统中,由于网络缓存技术的适用性,代理服务器可以部署在客户端、元数据服务器端和存储集群端。而现如今在海量存储领域中,基于对象存储文件系统的存储集群的单一层次化管理在异构存储环境下也会发生以上提到的问题。大部分基于对象文件系统都是把数据对象通过伪随机函数近似随机的平均分配到每台存储设备上,对于每个数据对象而言,分配到某台存储设备上的概率是一样的。存储在基于对象存储设备中的数据内容往往是存储系统中信息量最大的部分。对于数据内容的网络传输速率快慢直接影响存储系统的网络开销及其I/O性能。所以在异构存储环
4、境下,若元数据属性中访问频率比较高的热点文件被随机部署在性能较低或者传输延迟较高的对象存储设备上,则会造成该高频访问的数据对象将会在系统中以低速率高时延处理。因此,研究基于对象分布式文件系统的网络缓存技术有着重大的意义。本文在阅读国内外的相关文献基础上,研究了基于对象分布式文件系统和网络缓存的各个关键技术,针对当前基于对象分布式文件系统在异构存储环境中对高频访问热点文件无缓存机制的不足,设计并实现了一个基于对象分布式文件系统的存储缓存系统,本文的主要工作总结如下:(1)研究了国内外的相关数据存储系统。目前典型的基于对象分布式文件系统杭州电子科技大学硕士学位论文panFS在
5、单台OSD设备上利用内存来缓存数据对象的读写操作,在缓存中进行重新排序、重组然后合并,然后聚合地向OSD设备存储空间进行读写。Lustre的缓存机制只是在客户机上保存来自服务器的部分数据,并在本地对数据进行修改后,在必要的时候将修改后的数据刷新后对服务器进行回写或者向OSD服务器预读取一些数据对象房间缓存来准备读操作。zFS拥有一个协作缓存,它将所有OSD设备的内存集成为一个一致的高速缓存,客户机直接通过网络连接命中缓存的OSD设备,读取其内存中的数据对象。在客户端看来,基于高速网络的OSD内存集合就是一个单一层次的缓存空间,它们之间并没有分隔。但是协作缓存需要一个高速网
6、络的通讯支持,在异构存储集群中,一些传输延迟较高的OSD设备的内存被加入到缓存但是因其实际网络带宽不高,在客户端的数据对象访问请求命中该OSD的缓存时会遇到传输瓶颈。本文根据现有的基于对象分布式文件系统,提出了其在异构存储环境下出现的问题,确定了研究的方向,设计了基于对象分布式文件系统的存储缓存模型。该模型改善了传统的基于对象文件系统的数据访问模式,并根据该存储缓存的整体架构模型设计了存储缓存的操作协议,协调客户端、元数据服务器和存储集群之间的通信及传输。(2)以基于对象分布式文件系统的存储缓存模型和缓存操作协议为基础开发实现了基于对象分布式文件系统的存储缓存系统(Ser
7、ver-sideCacheSchemeforObject·BasedDistributedStorageSystem,以下简称OBSC)。OBSC整个系统以基于对象存储系统的架构为基础,由客户端(client)、元数据服务器集群(Metadatacluster)和存储集群(OSDcluster)构成。在存储集群中,把一些设备性能较好或者带宽较高以致传输速率较高(即传输延迟较低的存储设备)的OSD设备部署为代理服务器(Cacheproxy),让其对高频访问的数据对象进行缓存。在OBSC中,客户端在从存储集群读取数据对象时,先查找
此文档下载收益归作者所有