欢迎来到天天文库
浏览记录
ID:46579776
大小:563.97 KB
页数:8页
时间:2019-11-25
《LPCA——分布式存储中的数据分离算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、万方数据第29卷第3期2007年3月系统工程与电子技术SystemsEngineeringanaElectronicsV01.29NO.3Mar.2007文章编号:1001—506X(2007)030453—06LPCA——分布式存储中的数据分离算法张薇1’2,马建峰1(1.西安电子科技大学计算机网络与信息安全教育部重点实验室,陕西西安710071;2.武警工程学院电子技术系,陕西西安710086)摘要:针对数据密集型的存储系统,提出了一种可靠而高效的数据分离算法,可应用于对可生存性要求较高的分布式存储系统。该算法利用线性方法分离数据,存储量和运算量都较小。设原始数据为D,则每个存储节点上
2、保存的数据量是(1DI+a)/r,r为恢复数据所需要的最少份额数,口3、mationSecurity,XidianUniv.,Xi’an710071,China:2。EngineeringInstituteofthemr,nedPolice。Xi’an710086,China)Abstract:AreliableandefficientdatadistributionalgorithmiSprovided,whichcanbeusedinsurvivablestoragesystems.Inthisalgorithm,dataisdividedandretrievedthroughlinearoperationsonthefieldF2.ThefileDwhi4、chis}Diinlengthisdividedintonpieces,eachofsizeis(fDI+n)/,.,ristheleastamountofsharesneededtOretrieveD,口5、structuresiSgivenaswell.Keywords:informationmanagementsystem;storagesurvivability;datadistribution;distributedstorage;accessstrtlctUIre0引言分布式存储是保存大量数据的常用方法。与集中式存储相比,将数据分散到若干个相互独立的存储节点(storagenode)中保存可以提高数据服务的安全性和可靠性,因此分布式的存储已成为存储系统设计的主流。存储节点通常包括CPU,总线设备,磁盘和其他一些部件,数据则由这些节点共同保存。存储系统应当具有可生存性,当部分节点出现故6、障或受到攻击时,常规的数据服务仍可继续进行。为实现可生存性,通常采用的做法是在节点间引入冗余。而要实现冗余就必须对原始数据进行某种方式的处理,使其可以分散保存在不同的存储节点当中,以避免单点失效。在绝大多数系统中,冗余通过对数据进行备份或数据分离等技术来实现。一个可生存的系统必须达到安全性与效率的折衷,存储系统由于数据量非常大而需要格外注意执行效率。因此,如何在两者之间取得折衷,设计具有较强实用性的数据处理算法是分布式存储系统研究中的关键。本文提出的LPCA(1inearpartition-combinationalgo—rithm)算法可以用于实现大规模数据的分布式存储,该算法利用线性方7、法分离数据。与现有的同类算法相比,LPCA的运算量和存储量都较小,其中需要保存的总数据量为砚(IDI+n)/r,其中1DI为原始数据长度,行为存储节点数,r为恢复数据所需要的份额数,a<1DI/r。LPCA中所有的运算都在F2上进行,在分离数据时进行二元向量的按位异或运算即可,而在恢复数据时,需要计算F2上的矩阵的逆阵,再将矩阵与向量相乘,最终也归结于二元向量的按位异或运算。这些运算用软件和硬件都易实现,耗费的计算资源也
3、mationSecurity,XidianUniv.,Xi’an710071,China:2。EngineeringInstituteofthemr,nedPolice。Xi’an710086,China)Abstract:AreliableandefficientdatadistributionalgorithmiSprovided,whichcanbeusedinsurvivablestoragesystems.Inthisalgorithm,dataisdividedandretrievedthroughlinearoperationsonthefieldF2.ThefileDwhi
4、chis}Diinlengthisdividedintonpieces,eachofsizeis(fDI+n)/,.,ristheleastamountofsharesneededtOretrieveD,口5、structuresiSgivenaswell.Keywords:informationmanagementsystem;storagesurvivability;datadistribution;distributedstorage;accessstrtlctUIre0引言分布式存储是保存大量数据的常用方法。与集中式存储相比,将数据分散到若干个相互独立的存储节点(storagenode)中保存可以提高数据服务的安全性和可靠性,因此分布式的存储已成为存储系统设计的主流。存储节点通常包括CPU,总线设备,磁盘和其他一些部件,数据则由这些节点共同保存。存储系统应当具有可生存性,当部分节点出现故6、障或受到攻击时,常规的数据服务仍可继续进行。为实现可生存性,通常采用的做法是在节点间引入冗余。而要实现冗余就必须对原始数据进行某种方式的处理,使其可以分散保存在不同的存储节点当中,以避免单点失效。在绝大多数系统中,冗余通过对数据进行备份或数据分离等技术来实现。一个可生存的系统必须达到安全性与效率的折衷,存储系统由于数据量非常大而需要格外注意执行效率。因此,如何在两者之间取得折衷,设计具有较强实用性的数据处理算法是分布式存储系统研究中的关键。本文提出的LPCA(1inearpartition-combinationalgo—rithm)算法可以用于实现大规模数据的分布式存储,该算法利用线性方7、法分离数据。与现有的同类算法相比,LPCA的运算量和存储量都较小,其中需要保存的总数据量为砚(IDI+n)/r,其中1DI为原始数据长度,行为存储节点数,r为恢复数据所需要的份额数,a<1DI/r。LPCA中所有的运算都在F2上进行,在分离数据时进行二元向量的按位异或运算即可,而在恢复数据时,需要计算F2上的矩阵的逆阵,再将矩阵与向量相乘,最终也归结于二元向量的按位异或运算。这些运算用软件和硬件都易实现,耗费的计算资源也
5、structuresiSgivenaswell.Keywords:informationmanagementsystem;storagesurvivability;datadistribution;distributedstorage;accessstrtlctUIre0引言分布式存储是保存大量数据的常用方法。与集中式存储相比,将数据分散到若干个相互独立的存储节点(storagenode)中保存可以提高数据服务的安全性和可靠性,因此分布式的存储已成为存储系统设计的主流。存储节点通常包括CPU,总线设备,磁盘和其他一些部件,数据则由这些节点共同保存。存储系统应当具有可生存性,当部分节点出现故
6、障或受到攻击时,常规的数据服务仍可继续进行。为实现可生存性,通常采用的做法是在节点间引入冗余。而要实现冗余就必须对原始数据进行某种方式的处理,使其可以分散保存在不同的存储节点当中,以避免单点失效。在绝大多数系统中,冗余通过对数据进行备份或数据分离等技术来实现。一个可生存的系统必须达到安全性与效率的折衷,存储系统由于数据量非常大而需要格外注意执行效率。因此,如何在两者之间取得折衷,设计具有较强实用性的数据处理算法是分布式存储系统研究中的关键。本文提出的LPCA(1inearpartition-combinationalgo—rithm)算法可以用于实现大规模数据的分布式存储,该算法利用线性方
7、法分离数据。与现有的同类算法相比,LPCA的运算量和存储量都较小,其中需要保存的总数据量为砚(IDI+n)/r,其中1DI为原始数据长度,行为存储节点数,r为恢复数据所需要的份额数,a<1DI/r。LPCA中所有的运算都在F2上进行,在分离数据时进行二元向量的按位异或运算即可,而在恢复数据时,需要计算F2上的矩阵的逆阵,再将矩阵与向量相乘,最终也归结于二元向量的按位异或运算。这些运算用软件和硬件都易实现,耗费的计算资源也
此文档下载收益归作者所有