欢迎来到天天文库
浏览记录
ID:44178867
大小:419.71 KB
页数:5页
时间:2019-10-19
《差分隐私保护k-means聚类方法研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、万方数据第40卷第3期2013年3月计算机Computer科学ScienceV01.40No.3Mar2013差分隐私保护k-means聚类方法研究李杨1’2郝志峰2温雯2谢光强1’2(广东工业大学自动化学院广州510006)1(广东工业大学计算机学院广州510006)2摘要研究了基于差分隐私保护的k-means聚类隐私保护方法。首先介绍了隐私保护数据挖掘和隐私保护聚类分析的研究现状,简单介绍了差分隐私保护的基本原理和方法。为了解决差分隐私kmeans聚类方法聚类结果可用性差的问题,提出了一个新的IDPk-means聚类方法,并证明了其满足£‘差分
2、隐私保护。最后的仿真实验表明,在相同隐私保护级别下,IDPk—means聚类方法与差分隐私k-means聚类方法相比,聚类可用性得到了较大程度的提高。关键词差分隐私,电一均值。聚类,隐私保护中图法分类号TP309文献标识码AResearchonDifferentialPrivacyPreservingk-meansClusteringLIYan91·2HAOZhi-fen92WENWen2XIEGuangqian91’2(SchoolofAutomation,GuangdongUniversityofTechnology,Guangzhou5100
3、06,China)1(Sch∞1ofComputers,GuangdongUniversityofTechnology,Guangzhou510006,China)2AbstractWestudiedk-meansprivacypreservingclusteringmethodwithintheframeworkofdifferentialprivacy.Wefirstintroducedtheresearchstatusofprivacypreservedataminingandprivacypreserveclustering,briefly
4、presentingthebasicprincipleandmethodofdifferentialprivacy.Toimprovethepoorclusteringavailabilityofdifferentialprivacyk-means,wepresentedanewmethodofIDPk-meansclusteringandproveditsatisfiese-differentialprivacy.Ourexperi—mentsshowthatatthesamelevelofprivacypreserve,IDPk-me甜lscl
5、usteringgetsamuchhigherclusteringavailabilitythandifferentialprivacyk-meansclusteringmethod.KeywordsDifferentialprivacy,k—means,Clustering,Privacypreserving1引言随着数据库系统的日趋强大和数据存储成本的不断降低,个人数据的收集已经不再仅仅是政府和统计部门的工作,医疗机构、金融部门、搜索引擎、入侵检测系统、社交网络等各类组织都持有大量的个人数据,包括一些个人隐私数据。对这些数据进行数据挖掘能够获取
6、大量极具价值的知识,因此,如何在挖掘这些数据的同时实现个人隐私保护是当前数据挖掘研究的一大热点问题。数据挖掘中隐私保护的研究目的是,在保护数据中敏感属性的同时,将隐私保护方法对挖掘结果的影响程度控制在一定的范围之内。聚类分析是数据挖掘研究的重要组成部分,也是一些数据挖掘方法的基础。然而,目前数据挖掘中隐私保护方法的研究主要集中在关联规则挖掘和分类挖掘上,基于聚类分析的隐私保护方法研究相对较少。本文提出一种基于差分隐私保护的IDPk-means隐私保护聚类方法,差分隐私保护Ll’7]是一种基于噪声添加的隐私保护方法,通过添加满足特定分布的随机噪声使数
7、据失真,从而达到隐私保护的目的。差分隐私保护方法定义了一个极其严格的攻击模型,并对隐私泄露风险进行了严谨的数学证明和定量化表示。文章最后的仿真实验对IDPk-means隐弘保护聚类方法的效果和可行性进行了验证。2相关工作2.1保护隐私的数据挖掘按保护隐私所采用的技术划分,数据挖掘中的隐私保护技术可分为噪声干扰、匿名发布和数据加密等几大类。Agra—wal等人首次提出了一种在噪声干扰后的数据上构造分类树的算法,它在最大程度上保持了分类结果[8]。Sweeney等人提出了对数据进行匿名化处理的忌一匿名算法,它保证任意一条记录与另外的k一1条记录不可区分
8、,从而保护了隐私数据[9]。Lindell等人设计了一个基于数据加密的“多方安全计算协议”,实现了从分布式数据源中构造分类
此文档下载收益归作者所有