基于冗余机制的分布式存储系统性能优化研究

基于冗余机制的分布式存储系统性能优化研究

ID:33232284

大小:10.36 MB

页数:73页

时间:2019-02-22

基于冗余机制的分布式存储系统性能优化研究_第1页
基于冗余机制的分布式存储系统性能优化研究_第2页
基于冗余机制的分布式存储系统性能优化研究_第3页
基于冗余机制的分布式存储系统性能优化研究_第4页
基于冗余机制的分布式存储系统性能优化研究_第5页
资源描述:

《基于冗余机制的分布式存储系统性能优化研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、万方数据基于冗余机制的分布式存储系统性能优化研究AStudyofRedundancytoOptimizethePerformanceofDistributedStorageSystem导师:王新教授指导小组成员:王新教授赵进副教授尹训睿博士万方数据摘要一嬲垆一旦鸯6硝科”随着互联网技术的高速发展,我们已经步入了大数据时代。在与日俱增的数据规模面前,传统的关系型数据库显得无能无力,而分布式计算和分布式存储技术受到广泛关注。分布式存储是分布式计算的存储部分,是易于扩展的、虚拟化的存储资源池。为了满足大规模存储应用的需求,提供可靠的海量数据存储服务

2、,分布式存储系统使用冗余机制来保障数据的高可用性和可靠性。副本和编码是分布式存储系统目前主要的两种冗余机制。副本即对文件进行拷贝,而编码是通过对文件块进行线性或非线性处理生成编码块的冗余技术。由于数据规模异常庞大,采用副本冗余机制导致分布式存储系统需要付出巨大的存储空间开销。虽然编码冗余机制可以降低存储空间开销,但它需要额外的编解码时间对数据进行修复。面对这些高昂而又无法避免的额外开销,我们可以利用不同的冗余机制来优化分布式存储系统其他方面的性能,如通过副本降低分布式系统能耗和利用编码冗余机制减少文件修复时间。本文主要研究了分布式存储系统的副

3、本和编码两种冗余机制。针对使用副本作为冗余机制的分布式文件系统HDFS,我们设计了一种节能策略来降低分布式存储系统的能耗。这部分的工作主要包含两部分:节能的文件备份策略(EFR)和节能的作业调度策略(EJS)。为了让EJS达到降低能耗的目的,EFR使用了一种简单又有效的方式去放置文件的文件块。针对使用编码作为冗余机制的网络异构环境下的分布式存储系统,我们提出了一种能够降低文件修复时间的弹性树形结构再生码算法FTR。为了验证FTR算法的可用性和有效性,我们开发了一个实际的基于再生码的分布式文件存储系统RcDFS,并对RCDFS的设计和实现细节进

4、行了详细的描述。通过实验表明,Hadoop使用EJS和EFR结合的策略可以让系统节约50-60%的能量,另一方面,FTR算法能够有效的在RCDFS上运行及其在网络环境异构性明显的情况下,其数据修复时间低于STAR算法。关键词:大数据,分布式存储系统,Hadoop,副本,再生码,节能,网络编码,修复时间万方数据ABSTRACTWiththeexplosivegrowthofdata,wenowhaveenteredtheeraofBigData.Asthetraditionalrelationaldatabaselosestheabilityt

5、odealwiththeex-tremelylargedata,arangeofnewtechnologieshavesprungup,includingcloudcomputingandcloudstorage.Cloudcomputingiscomputingthatinvolvesalargenumberofcomputersconnectedthroughacommunicationnetwork,suchasGoogle’SMapReduceanditsopen—sourceimplementationHadoophavee-mer

6、gedaSaprevalentparadigmforprocessinglargedatasetsindatacenters.Cloudstorageisamodelofnetworkedenterprisestoragewheredataisstoredinvirtualizedpoolsofstorage.GFSandHDFSarethemajortechnicalofcloudstorage.Inordertomeettheneedsoflarge-scalestorageapplicationandprovidereliablemas

7、sdatastorageservices,thedistributedstoragesystemneedstousetheredundancytomaintaintheavailabilityandreliabilityofthedata.Becauseofthelargeamountofdata,usingtheredundancymechanismdemandsthedistributefilestoragesystemshouldhavehugestoragespacetostoreadditionaldatawithoutanyoth

8、erbetterwaytodealwiththisproblem.Fortunately,wecantakeadvantageoftheredundancyforo

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。