欢迎来到天天文库
浏览记录
ID:50145821
大小:3.92 MB
页数:116页
时间:2020-03-06
《重复数据删除系统数据组织研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、学号:10812027重复数据删除系统数据组织研究阎芳2015年10月中图分类号:TP392UDC分类号:004.2重复数据删除系统数据组织研究作者姓名阎芳学院名称计算机学院指导教师谭毓安教授答辩委员会主席石峰教授申请学位工学博士学科专业计算机应用技术学位授予单位北京理工大学论文答辩日期2015年10月ResearchonDataOrganizationforDataDe-duplicationSystemCandidateName:YanFangSchoolorDepartment:SchoolofComputerFacultyMentor:Prof.TanYu-
2、AnChair,ThesisCommittee:Prof.ShiFengDegreeApplied:DoctorofEngineeringMajor:ComputerApplicationDegreeby:BeijingInstituteofTechnologyTheDateofDefence:October,2015研究成果声明本人郑重声明:所提交的学位论文是我本人在指导教师的指导下进行的研究工作获得的研究成果。尽我所知,文中除特别标注和致谢的地方外,学位论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京理工大学或其它教育机构的学位或证书所使用过的材
3、料。与我一同工作的合作者对此研究工作所做的任何贡献均已在学位论文中作了明确的说明并表示了谢意。特此申明。签名:日期:北京理工大学博士学位论文摘要在高速增长的数据存储系统中,重复数据删除技术的作用越来越重要,广泛应用于VTL(VirtualTapeLibrary)系统、数据备份系统、数据归档系统等。重复数据删除的核心思想是将一个数据文件或流分成连续的块,使用哈希函数(如SHA-1)为每个数据块生成相应的摘要信息(称为指纹值),查找指纹值表将每个块的指纹值和所有已存储块的指纹值比较,当数据块出现重复时仅存储其元数据信息,从而减少对存储空间的消耗。国内外在重复数据删除系统
4、领域已经开展了大量的研究,但在数据组织形式方面仍然存在着足够的优化空间。具体的说,是针对重复数据删除系统的特有数据访问模式,研究更加高效的存储架构和数据管理策略,以充分发挥存储设备的效能,降低存储系统能耗。论文围绕重复数据删除系统的节能数据组织、对象级去重、元数据存储策略、数据恢复方法等开展研究,主要创新点如下:(1)提出一种面向分块的交叉分组数据组织方法,针对重复数据删除系统的连续数据访问模式降低存储能耗。重复数据删除系统一般采用RAID(RedundantArrayofIndependentDisks)来提供存储和数据保护,去重后的数据均匀分布存储在各磁盘上,但
5、少数磁盘即能提供连续数据访问的I/O带宽。论文设计了一种RAID-5交叉分组的数据组织方法以及节能磁盘调度算法,通过调整水平磁盘分组大小适应不同的系统吞吐量要求,通过调整垂直分组大小减少校验磁盘切换次数,从而使I/O请求集中在某个水平磁盘分组,其他分组的磁盘进入待机模式。在Linux操作系统MD(MultipleDeviceDriver)模块的基础上实现交叉分组布局,验证了该布局在10磁盘3分组的存储配置下降低能耗约26%。(2)提出一种面向OpenXML复合文件去重系统的对象存储数据组织方法,实现去重对象的高效存储。论文设计了一种RAID-4非对称分组的对象存储数
6、据组织方法和磁盘分组调整算法。各个磁盘分组所包含的磁盘数目可以按需调整,有两组磁盘并行工作,分别存储易变类型对象和非易变类型对象。采用预测机制实现分组调整,均分调整算法按照系统的I/O性能要求计算磁盘分组调整因子;按比例调整则考虑不同类型对象的存储比例需求。非对称分组的数据组织适合去重对象的存储,可根据备份I北京理工大学博士学位论文数据流的负载变化调整磁盘分组。在10磁盘、初始3分组的存储配置下,磁盘分组的均分调整和按比例调整分别降低约22%和27%的能耗。(3)提出一种基于访问频度的冷热元数据存储组织策略,提高元数据访问效率。为降低磁盘索引访问次数,大多数研究集中
7、在指纹值查找技术,忽略了由索引查找和元数据存储引入的能耗问题。论文将元数据分为热元数据和冷元数据,热元数据的存储采用交叉分组的数据组织,基于B+树组织索引结构,并将指纹值表分成子表,子表的大小受数据组织中存储子块大小的控制,按照数据流中存储块到达顺序存储元数据条目;冷元数据采用单块磁盘顺序写的方式写入磁盘组,使用追加式的文件结构来保持空间局部性。将冷热元数据分开存放,在热元数据5磁盘2分组和冷元数据3磁盘3分组的存储配置下,降低元数据存储能耗约21%。(4)提出一种基于存储位置的副本复制和恢复策略,提高数据恢复效率。存储重复数据块能有效提高数据恢复速度,以往研究
此文档下载收益归作者所有