一种改进的隐私保护关联规则挖掘方法研究

一种改进的隐私保护关联规则挖掘方法研究

ID:5221192

大小:31.00 KB

页数:6页

时间:2017-12-06

一种改进的隐私保护关联规则挖掘方法研究_第1页
一种改进的隐私保护关联规则挖掘方法研究_第2页
一种改进的隐私保护关联规则挖掘方法研究_第3页
一种改进的隐私保护关联规则挖掘方法研究_第4页
一种改进的隐私保护关联规则挖掘方法研究_第5页
资源描述:

《一种改进的隐私保护关联规则挖掘方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、一种改进的隐私保护关联规则挖掘方法研究摘要隐私保护已成为数据挖掘方面的一个重要话题,针对其解决办法也是多种多样。本文所探讨的是保护各数据库机密的关联规则挖掘方面的问题。为得出关联规则,每个参与对象必须数据共享。本文在对每个大类主要的隐私保护方法进行探讨后集中选择一些应用进行实验。实验结果均表明,对敏感规则的隐藏提出改进具有很好的隐私性和适用性。关键词关联规则;数据挖掘;隐私保护;数据隐藏;知识隐藏中图分类号tp18文献标识码a文章编号1674-6708(2012)72-0226-020引言随着信息技术的发展,数据挖掘在一些深层次的应用中发挥了积极

2、的作用。但与此同时,也带来隐私保护方面的问题。例如,通过一般的方法对银行卡客户的交易行为等信息的关联分析,可以发现用户在交易行为上的特点,但不可避免地会造成用户的隐私泄漏。所以在数据挖掘过程中解决好隐私保护的问题,成为数据挖掘的一个研究热点[1-2]。数据挖掘的目标是从数据库中提取隐藏的或者是潜在的有用规则或者模式,然而,数据挖掘中隐私保护的目标是把特定的敏感信息隐藏起来,而不被数据挖掘技术发现。对于给定需要隐藏的项目集,对lhs(isl)法和rhs(dsr)法进行了改进,解决了关联规则提取中的隐私保护问题,同时保证处理后的关联规则在随后的关联规

3、则挖掘中不被发现。1相关工作数据隐藏试图在数据泄露前将机密或隐私信息的有关数据删除。知识隐藏是指保密知识远离数据进行保密处理。因为关联规则挖掘的缘故,众多有效的关联规则得以发现;但与此同时,许多不想为人知的隐私规则也暴露无遗。为解决这一矛盾性问题,我们必须对挖掘过程加以限制,以确保这些敏感规则隐藏起来,这方面的解决办法非常之多。其中常用的一种即基于支持度和信任度的分块方法[3-5]。针对上一节问题给出了问题的解决办法,首先,采用先验算法来找出频繁项集,然后,为获得全局支持度和信任度而不泄露隐私,会采用安全计算法。而针对知识隐藏会采用一种改进算法来

4、达到满意效果。2算法改进的描述通过其它方法来隐藏敏感规则时,要删除某个项目或借助一个未知数据来改变原始数据来实现针对如何隐藏信息的关联规则,wangandjafari[6]给出两种数据挖掘算法即:增加支持lhs(isl)法和减少支持rhs(dsr)法。前一种算法旨在增加对规则左边的支持度,而后者则在于减少对规则右边的支持度。有关isl算法的具体介绍如下:isl算法输入:(1)一个源数据库d(2)一个最小支持度(3)一个最小信任度(4)一个项目集x预测输出:经过修改的数据库d’,包括lhs方面的x在内的其中的规则将会隐藏。从d中找出大的1-项集对于

5、每个预测项目x∈x如果x不是一个大的1-项集,那么x:=x-{x}如果x是空的,那么退出;//不存在包含有lhs里的x的规则从d中找出大的2-项集对于每个x∈x{对于每个包括x{在内的大的2-项集计算规则u的可信度,其中u是一个像x→y的规则如果可信度(u)<最小信任度,那么进入下一个大的2-项集否则{//增加对lhs的支持度找出tl={t在d

6、t里面,不支持u}根据项目数进行升序排列后选出tl尽管{信任(u)≥最小信任度且tl不是空{从tl里选出首项事务t修改t以支持度x、lhs(u)计算u的支持度和可信度从tl中删除首项事务后进行保存};//

7、结束while};//结束,如果信任(u)<最小信任度如果tl是空的,那么{无法隐藏x→y重新构建d进入下一个大的2-项集}//结束,如果tl是空的}//结束每个大的2-项集从x里删除x}//结束每个x∈x输出更新过的d转换为d’3实验与结论通过上述方法,敏感规则会被隐藏,但一些非敏感规则也可能也被隐藏,并可能人为生成许多新规则。为解决这一问题,系统应通过使用挖掘结果来对选择过程(挑选出项目以进行修改)加以限制,有关操作步骤如图1所示。修改选择过程时,我们可以选择其它项作为牺牲项以获得更好的效果。然后,加入一些噪音规则以提高安全性。由于分块算法的

8、主要不足之处在于,数据集与分块值的数据均不会失真,因此,建立一些噪音规则就成为必要,以使数据集失真,这个可以在剪枝算法环节进行删除。本文在探讨关联规则挖掘、数据挖掘系统的构建时,对针对隐私保护的一些解决方法进行了详细分析,它们均考虑到数据挖掘过程中存在的主要安全隐患问题。通过采用isl和dsr方法来实现对敏感规则的隐藏;同时,本文提出了一种可以获得更佳效果的优化方法,其负面影响也较小。针对海量数据,有关解决方法所带来的负面影响尽管较小,但安全计算会带来通信成本巨大、密码系统复杂以致算法效率降低等问题。参考文献[1]evfimievskia,sri

9、kantr,agrawalr.privacypreservingmin2ingofassociationrules[j].informa

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。