欢迎来到天天文库
浏览记录
ID:57924667
大小:443.90 KB
页数:7页
时间:2020-04-14
《利用贝叶斯原理在隐私保护数据上进行分类的方法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第49卷第4期西安交通大学学报Vo1.49No.42015年4月J0URNALOFXI’ANJIAOTONGUNIVERSITYApr.2015DOI:10.7652/xjtuxb201504008利用贝叶斯原理在隐私保护数据上进行分类的方法杨攀。,桂小林,安健。,田丰,王刚。(1.西安交通大学电子与信息工程学院,710049,西安;2.西安交通大学陕西省计算机网络重点实验室,710049,西安;3.西安财经学院信息学院,710049,西安)摘要:针对可还原数据扰动(retrievablegeneraladditivedataperturbation,RG
2、ADP)算法在保护数据库隐私时会影响数据挖掘结果的问题,提出一种利用贝叶斯原理在扰动数据上进行分类的方法。该方法分析RGADP算法过程,利用贝叶斯原理,根据扰动数据推算原始数据的概率分布,用估算的概率分布重构数据,并对重构数据进行分类以提高分类的正确性。实验结果表明:该方法估算出的概率分布与原始数据概率分布接近,且重构数据的分类正确率相比扰动数据而言平均可提高49/6以上,其更接近原始数据的分类正确率,从而有效地降低了扰动算法对数据分类的影响;该方法的运行时间与数据量和数据分组数成正比,重构10000条数据的运行时间在200ms以内,因此该方法也具有较高的
3、效率。关键词:隐私保护;数据扰动;贝叶斯原理;分类中图分类号:TP301文献标志码:A文章编号:0253—987X(2015)04—0046—07AClassificationMethodforPrivacy—PreservedDataUsingBayesianRuleYANGPan,GUIXiaolin~,ANJian~,TIANFeng,WANGGang。(1.SchoolofElectronicsandInformationEngineering,Xi’anJiaotongUniversity,Xi’an710049,China;2.ShaanxiP
4、rovinceKeyLaboratoryofComputerNetwork,xianJiaotongUniversity,Xi’an710049,China;3.SchoolofInformation,Xi’anUniversityofFinanceandEconomics,xi’an710049,China)Abstract:AclassificationmethodforperturbeddatausingtheBayesianruleispresentedtosolvetheproblemthattheresultofdataminingisaffe
5、ctedwhentheretrievablegeneraladditivedataperturbation(RGADP)algorithmisusedtopreserveprivacyindatabase.TheprocessofRGADPalgorithmisanalyzed,andtheBayesianruleisusedtOestimatetheprobabilitydistributionoforiginaldatafromtheperturbeddata.Then,newdataarereconstructedfromtheestimatedpr
6、obabilitydistributionandareclassifiedtoincreasetheaccuracyofclassification.Experimentalresultsshowthattheprobabilitydistributionestimatedbytheproposedmethodisclosetotheoriginalprobabilitydistribution.Comparisonwiththeclassificationaccuracyofperturbeddatashowsthattheclassificationa
7、ccuracyofthereconstructeddataincreasesbymorethan4inaverage,andisclosertOtheoriginalclassificationaccuracy.Thus,themethodcaneffectivelyreducetheeffectoftheperturbationalgorithmonclassification.Moreover,therunningtimeofthemethodisproportionaltotheamountofdataandthenumberofgroups.The
8、methodcostsIessthan200mstoreconst
此文档下载收益归作者所有