资源描述:
《【论文】基于隐私保护的聚类挖掘的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于隐私保护的聚类挖掘的研究与实现摘要:随着数据库和网络技术的发展,数据在数量和复杂性上出现了很大的增长,随之出现了数据挖掘这一强有力的数据分析工具。其能发现数据中的规律,为很多领域做出了巨大贡献,应用前景广泛。然而,在很多情况下,数据持有者可能出于数据安全和敏感性等原因而不想和别人共享自身的数据,如何在私有数据不被泄露的前提下得到精确的挖掘结果也就成了当前数据挖掘的一大研究方向,称为基于隐私保护的数据挖掘。本文既考虑在半诚实模型下又研究在恶意模型情况下的隐私保护的聚类问题,在半诚实模型下,各个方之间不存在共谋作弊现象,所以使用普
2、通的正交变换来实现数据扰乱,实验得到扰乱前后两属性间距离不变。在恶意模型下,由于恶意方可能会中途中断协议,联合其它方作弊等,这种情况下普通的正交变换已失去了保护性,所以考虑使用随机化的方法来实现隐私保护,其先使用层次聚类算法确定初始聚类中心,然后用k-means聚类算法进行欧氏距离实验测试,最后得出误差在合理精度范围之内。实验表明所提出的方法在合理的精度下实现了垂直分布数据的隐私保护。关键词:隐私保护;数据挖掘;聚类;垂直分布;恶意模型;半诚实模型;数据扰乱ResearchandImplementationofprivacypre
3、servingclusteringminingAbstract:Withthedevelopmentofdatabaseandnetworktechnology,thenumberandcomplexityofdatagrowalot.Thereappearsapowerfuldataanalysistoolscalleddatamining,whichcanfoundthelawofthedata.Ithasmadetremendouscontributionstomanyareasandithasanextensiveappl
4、yprospect.Butinmanycases,thedataholdersmaydonotwanttosharetheirowndatawithothersforsomereasons,suchasdatasecurityandsensitivityandsoon.Howcangetaccurateminingresultwithoutleakingtheprivatedataisbecomingamajorresearchdirectionofdatamining.Itiscalledprivacypreservingdat
5、amining.Thispaperconsiderstheproblemofthesemi-honestmodelbutstudytheclusterproblemofthemaliciousmodeltotheprivacyprotection.Inthesemi-honestmodel,eachpartydoesnotcheatinconspiracy,therefore,weuseordinaryorthogonaltransformationtocarryoutthedataperturbation,theexperime
6、ntgetsthatthedistancebetweenthetwounchanged.Inthemaliciousmodel,asmaliciousmayinterrupttheagreementinthehalfway,andcheatwithothersandsoon,inthiscase,ordinaryorthogonaltransformationhaslostitsprotective,soweconsiderusingrandomperturbationtoachieveprivacyprotection,itfi
7、rstuseclusteralgorithmtodeterminetheinitiallevelofclustercenter,andthenusek-meansclusteralgorithmtocarryoutEuclideandistancetest,finally,itgetsthattheerrorisinareasonableaccuracy.Theexperimentsshowthatthismethodcancarryouttheverticaldistributionofdataprivacyprotection
8、withreasonableaccuracy.Keywords:privacypreserving;datamining;clustering;verticaldistribution;maliciousmodel;semi-honestmodel