资源描述:
《基于安全多方计算的分布式关联规则挖掘》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、基于安全多方计算的分布式关联规则挖掘的隐私保护学生:胡天寒导师:朱玉全目录研究背景及意义国内外研究现状研究目标与内容研究方法课题创新点进度安排研究背景及意义近年来,随着技术的进步、计算能力以及存储能力的日益提高,挖掘数据集规模有了迅速的增长,而且这些数据集大部分都按地理位置分布于多个场所。为了挖掘如此巨大且分布式排列的数据集,越来越多的分布式算法被研究出来。分布式数据挖掘就是使用分布式计算,从分布式数据库中发现知识的过程。数据的隐私性保护是分布式数据共享及计算得以广泛应用的主要障碍,数据是分布在不同的地点,分属于不同组织,在进行合作运算的同时相互之间并不希望其他参与方
2、知道自己的原始数据及一些能推测出有用信息的敏感中间计算结果,这就迫切需要发展一种能适用于在分布式环境下具有隐私保护特性的通用分布式计算方法,使得各参与节点在无法获取其他节点信息及敏感中间计算结果的条件下协作计算,得到准确的挖掘结果。国内外研究现状YAO于1986年提出了两方安全计算;随后Goldreich将其推广为对于任何函数都成立的多方安全计算方法。B.Pinkas提出了将密码学理论的研究应用于数据挖掘中的隐私保护,并且证明了不同种类的数据挖掘问题都可以转化为安全的多方计算。C.Cliffton等人提出了支持隐私保持的四种安全多方计算的方法。它们分别是:安全和,安全
3、并集,安全交集大小以及标量积方法。M.Kantarcioglu等提出了针对水平分割数据的保持隐私的关联规则挖掘的算法。探讨了如何在两个垂直分布的私有数据库的联合样本集上施行数据挖掘算法,同时保证不向对方泄露任何与结果无关的数据库数据。Jaidepevaidya提出一个从垂直分割的数据中挖掘全局关联规则的隐私保护算法,算法通过安全地计算代表子项集的标量积的方法来得到项集的支持计数。黄毅群等人研究了一种基于向量点积的关联规则挖掘算法,给出了一种安全的向量点积协议。对于垂直划分的分布式数据库,该协议既可用于搜索频繁项集,又能保持各方数据的隐私。研究目标与内容本课题研究的内容
4、是数据挖掘中基于分布式关联规则的隐私保护问题。在保护数据方面,针对不同的数据分布分别进行研究并提出基于分布式关联规则挖掘的隐私保护算法。对基于向量点积的分布式关联规则挖掘算法进行改进。此算法在分布式环境下,利用保持隐私数据挖掘的基本方法和安全多方计算协议,可以在不泄露任何隐私的基础上有效地对垂直型数据分布进行挖掘。挖掘关联规则的步骤大体分为两步来描述(1)找出所有的频繁项集。即找出所有那些支持度大于事先给定的支持度阈值的项集。(2)在找出的频繁项集的基础上产生强关联规则。即产生那些支持度和置信度分别大于或等于事先给定的支持度阈值和置信度阈值的关联规则。关联规则的关键在
5、于项集支持度的计算。本课题是对第一步频繁项集的挖掘进行研究,提出一种适合于多个站点(>=3)的安全求解项集支持度算法。研究方法1)选择用于适合本实验的数据源。数据源要求是分布式数据库,或者是把集中式数据库按水平方式或垂直方式划分后分布在不同站点的分布式数据集(多于两个站点)。本课题选择了三家零售商的交易数据库进行联合挖掘。三家零售商分别为A,B,C,每个零售商的交易数据库为Da,Db,Dc。各家零售商都希望在保护自己数据的同时得到有价值的挖掘结果,本课题研究的目标就是使各个站点得到有价值的信息,同时保证单个站点隐私的泄露。2)改进基于向量点积的关联规则挖掘算法,由安全
6、两方适用于安全多方。有关垂直型数据库,现在的此方面的算法大部分是基于Apriori为主应用两方安全计算,使用apriori-gen函数去产生所有的侯选集,对挖掘的每一项,算法都通过计算标量乘积的形式来判定是否为最大项目。如果按照上面的方法,要计算支持计数,那么站点A或B都必须公布各自的私有信息,暴露了自己的隐私。以安全三方为例,提出一种改进的安全向量点积方法来保护各方的隐私。算法描述如下:Step1L={large-1itemset}Step2for(k=2;Lk-1不为空;k++}dobeginStep3Ck=apriori-gen(Lk-1)Step4对于所有的候
7、选集dobeginStep5如果C中所有属性属于A或B或CStep6A,B,C独立计算c.countStep7否则Step8假设A拥有C中的p个属性,B拥有q个属性,C拥有剩下的r个属性Step9三方各自计算向量X,Y,ZStep10A,B,C三方各自产生三对数据(K1,V1),(K2,V2),(K3,V3)Step11向量X乘上系数K1,再加上偏移量V1,得到向量x’Step12将变换后的向量x’传给YStep13Y接到X’,计算向量X‘Y,并将y1+y2+…+yn传给向量XStep14A方计算{X’Y-V1(y1+y2+…+yn)}/K1得到结果