备份系统中在线重复数据删除优化的研究

备份系统中在线重复数据删除优化的研究

ID:12340539

大小:330.12 KB

页数:57页

时间:2018-07-16

备份系统中在线重复数据删除优化的研究_第1页
备份系统中在线重复数据删除优化的研究_第2页
备份系统中在线重复数据删除优化的研究_第3页
备份系统中在线重复数据删除优化的研究_第4页
备份系统中在线重复数据删除优化的研究_第5页
资源描述:

《备份系统中在线重复数据删除优化的研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、分类号学校代码10487学号密级M201072292硕士学位论文备份系统中在线重复数据删除优化的研究学位申请人:金津学科专业:计算机技术指导教师:王桦讲师答辩日期:2012年5月25日AThesisSubmittedinPartialFulfillmentoftheRequirementsfortheDegreeofMasterofEngineeringTheResearchoftheOptimizationofIn-lineDataDe-duplicationinBackupSystemsCandidateMajorSupervisor:::JinJinComputerT

2、echnologyWangHuaHuazhongUniversityofScience&TechnologyWuhan,Hubei430074,P.R.ChinaMay,2012独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到,本声明的法律结果由本人承担。学位论文作者签名:日期:年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有

3、权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本论文保密□,在_____年解密后适用本授权书。不保密□。(请在以上方框内打“√”)学位论文作者签名:指导教师签名:日期:年月日日期:年月日华中科技大学硕士学位论文摘要研究发现,应用系统所保存的数据中高达60%是冗余的,而且随着时间的推移越来越多。为了提高存储效率,节约存储容量和成本,重复数据删除技术应运而生,并已成为近年来存储备份系统研究的热门话题。传统的在

4、线重复数据删除技术面临着面对大数据量时的数据指纹索引查找瓶颈问题。目前相关的解决办法基本都是围绕优化索引服务器端的效率来做研究。而实际备份应用中一个普遍的现象是,备份用户端的数据会随着每天或每周一次的备份逐渐呈现出较强的局部相似性这一特点。利用这一点,研究在备份用户端加入本地指纹索引查找功能来缓解索引服务器压力和减少索引查找延迟,是避免服务器索引瓶颈的一个新思路。本文提出了一种源端索引策略,该策略适用于在线、源端重删的备份系统,在原始单纯的服务器指纹索引模式上,加入了源端指纹索引模式。该模式的工作方式是在备份客户端保存其历史备份的数据指纹表,当选择该模式进行指纹判重时会优先查找备份

5、客户端的数据指纹表,源端索引模式在用户备份数据的局部相似性较高的情况下可以使较多备份数据在源端就能够进行指纹判重。源端索引策略还利用布隆过滤器数据结构和文件相似性检测的相关原理,在在线重复数据删除中加入了一个索引模式选择模块,能够在用户备份之前根据备份文件和本地索引文件的相似性来选择索引模式,达到了充分利用备份客户端备份数据特性来缓解服务器索引压力,节省带宽和提高备份效率的目的。最后采用B-Cloud数据备份系统进行性能测试,实验结果表明,源端索引模式在备份客户端数据局部相似性提高的情况下,索引效率要高于传统的服务器索引模式,且局部相似性越高,备份客户端的指纹索引效率越高;同时,选

6、择索引模式模块判断文件相似性的准确度较高;另外还测试了不同分块大小的备份系统中源端索引策略的性能,发现源端索引策略在分块越小、服务器索引压力越大的系统中的效果越明显。关键词:备份系统,重复数据删除技术,指纹索引,源端索引策略I华中科技大学硕士学位论文AbstractStudieshavefoundthatupto60%ofthesaveddatainapplicationsystemsisredundant,andthisnumbergrowsastimegoesby.Inordertoimprovestorageefficiency,aswellastosavestorageca

7、pacityandcost,datade-duplicationtechnologycameintobeing,andhasbecomeahottopicoftheresearchesofstorageandbackupsystemsinrecentyears.Traditionalin-linedatade-duplicationtechnologyisfacinganimportantissuethatwhenfacingmassiveamountofdatafi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。