大数据加密算法综述.docx

大数据加密算法综述.docx

ID:55556396

大小:679.32 KB

页数:7页

时间:2020-05-16

大数据加密算法综述.docx_第1页
大数据加密算法综述.docx_第2页
大数据加密算法综述.docx_第3页
大数据加密算法综述.docx_第4页
大数据加密算法综述.docx_第5页
资源描述:

《大数据加密算法综述.docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、4.现有解决方案4.1基于数据消冗技术的大数据加密算法基于数据消冗技术的大数据加密算法是一种结合重复数据删除算法的,基于bloomfilter的大数据消冗算法,是由学者王蒙蒙等对大数据通用加密模型以及加密技术原理等研究后针对大数据加密方案中的速度和实时性问题而提出的一种加密算法[1]。研究发现,目前大数据的中冗余度高达60%以上[2]。,而传统的数据压缩方法在利用数据冗余来提高储存查询效率上,有许多局限,无法处理不同文件之间的数据冗余。而重复数据删除算法,不仅拥有传统方法的优势消除文件内的数据冗余,而且能消除共享数据集内的

2、文件之间的数据冗余[1],这在降低大数据的维数上,提供了一种很好的思路。4.1.1数据消冗技术重复数据删除技术是基于数据自身的冗余度来检测数据流中的重复数据对象的数据消冗技术。从重复数据删除发生的时间进行分类,可以分为在线和离线。在线是指数据到达存储设备之前进行重复数据删除;离线是指先暂时将所有数据存在缓冲区,等到服务器空闲再进行重复数据删除。重复数据删除技术的实现过程首先将数据文件分割成一组数据块,为每个数据块计算指纹,然后以指纹为关键字进行Hash查找,匹配则表示该数据块为重复数据块,仅存储数据块索引号,否则则表示该数

3、据块是一个新的唯一块,对数据块进行存储并创建相关元信息。这样,一个物理文件在存储系统就对应一个逻辑表示,由一组FP组成的元数据。当进行读取文件时,先读取逻辑文件,然后根据FP序列,从存储系统中取出相应数据块,还原物理文件副本。重复数据删除的过程主要分为:1.数据划分2.数据块指纹特征计算3.数据块检索4.冗余消除数据存储1.相同数据检测还是采用相似数据检测和差异编码技术对比传统的存储系统,重复数据删除系统基于内容寻址,而不是基于文件名寻址;尽管减少了写操作,但由于增加了重复数据删除处理过程,较传统存储系统的I/O性能要低;

4、由于每次只写新的数据,重复数据删除系统具有顺序写、随机读的特点。通常情况下,用重复数据删除前的字节数(BytesIn)与处理后的字节数(BytesOut)之比来衡量数据缩减率(DataEliminationRatio,DER),如式4-1所示DER=BytesInBytesOut(4-1)DER通常由两方面因素决定:1采用的划分策略类型;2平均数据分块大小。尽管式4—1所示的数据缩减率已将分块后数据块之间的重复数据和单个数据块内部的数据压缩考虑在内,但没有考虑元数据开销。但重复数据删除系统中的元数据开销是不容忽视的,研究者

5、提出了数据缩减率的修正公式[3],如式4-2所示:DER=DER1+f(4-2)其中f为元数据大小的开销,其计算方法如下:f=MetadataSizeAverageChunSize(4-3)其中,MetadataSize表示元数据大小,AverageChunkSize表示平均Chunk大小。常用的还有一种基于Bloomfilter的数据消冗技术。Bloomfilter是由HowardBloom在1970年提出的二进制向量数据结构,它具有很好的空间和时间效率,被用来检测一个元素是不是集合中的一个成员。基于Bloomfilte

6、r的大数据消冗算法的核心思想是利用Bloomfilter的数据结构来表示特征值对文件特征进行降维。在检测相同数据块时,引入Bloomfilter技术,利用Bloomfilter算法计算其相似度,进行更细粒度的匹配。算法的具体实现步骤:1.初始化hash表。2.将得到的hash函数值与已经存储在hash表中的值进行比较。若匹配到相同的值,则用指向已存储文件的指针代替此文件;若匹配失败,则将文件进行存储。3.重复步骤1至2,直至所有文件被检测完毕。1.对完全文件检测技术中没有重复的数据重新归档。2.将划分好的数据块输入数据流,

7、构造一个m位的Bloomfilter数据结构,并将其所有位初始化为0。3.选取k个相互独立的hash函数,分别将集合中的每个元素映射到1,...,m的范围内。为每个数据块计算hash值作为组成的序列作为特征值。7.按照Hamming距离和余弦相似度公式计算数据对象之间的相似性,若两者有相同,则用指向已存储文件的指针代替该文件;若两者的值不相同,则将文件进行存储,同时更新hash表,将新文件hash值添加进去。4.1.2基于数据消冗技术的大数据加密算法结合ECC加密算法和分组密码算法的特点,并综合之前的重复数据删除方案,提出

8、了一种适用于大数据加密的对称密码算法和非对称加密算法相结合的加密方案;其中,ECC用于加密hash表内容,对称加密算法用于加密消冗方案处理后的大数据。方案的基本模型如图4-1所示。图4-1基于数据消冗技术的大数据加密算法模型加密算法步骤:1.数据预处理数据预处理时需要删除数据中的重复数据,运用之前提到的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。