欢迎来到天天文库
浏览记录
ID:31365794
大小:108.50 KB
页数:6页
时间:2019-01-09
《relieff算法在数据发布隐私保护中的应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、reliefF算法在数据发布隐私保护中的应用研究 摘要:在数据发布中,数据发布的目的是为了其他企业或者组织等能够通过分析研究发布后的数据得到有价值的信息。然而数据的发布会泄露数据所有者的隐私信息,因此近几年来对于数据发布隐私保护的研究也越来越多。目前,在数据发布隐私保护方法中使用最多的是匿名化方法。该文通过结合特征选择领域知识,对数据发布在隐私保护和数据可用性上进行了研究,提出了将特征选择技术应用在数据发布隐私保护中,从待发布的数据属性中选择最有利于对数据发布有研究价值的数据属性,该方法降低了数据隐私泄露的风险,并且有利
2、于数据挖掘。 关键词:数据发布;隐私保护;特征选择;微聚集 中图分类号:TP311文献标识码:A文章编号:1009-3044(2016)15-0001-02 1概述6 数据发布隐私保护的主要思想是在不泄露数据隐私和保持数据可用性之间寻找一种平衡[1]。数据发布的目的是为了数据的收集者(如个体、企业、政府等)进行分析研究然后做出相对应的措施来达到自己的目的。发布的数据的属性大都是多维的,如果所有的数据属性全部发布,数据的隐私泄露的几率非常高,同时数据的损失也会非常大,数据可用性大大降低,一些无关数据属性或者相关性较小
3、的数据属性的发布会加大隐私泄露的几率且对于数据发布没有研究意义,因此,研究发布数据中的属性对于数据发布是否具有研究价值,以及在数据隐私保护和保证数据可用性之间寻找一种平衡具有非常重要的意义。本文提出将特征选择技术和微聚集技术相结合的隐私保护方法,从待发布的数据属性中选择最有利于对数据发布有研究价值的数据属性,该方法降低了数据隐私泄露的风险,但是在一定程度上增加了信息的损失。 2特征选择及reliefF算法 特征选择是一种非常常见的降维方法,它是指从原始特征集中选择使某种评估标准最优的特征子集,其目的是挑选一些最有效的特
4、征从而降低数据特征维度,使选出的最优特征子集和特征选择前近似甚至更好的预测结果,这不但提高了模型的泛化能力、计算效率,也提高了数据的实际效用,同时可降低维度灾难的发生频率。 Relief[2]算法在特征选择算法中比较优秀且常用的算法。Relief算法随机从训练集中选取m个样本实例,然后找出和选取的样本属于同类和不同类的两个距离最近的样本,计算它们之间的差异,计算样本的每个特征和类的相关性,再用平均值分别作为各个特征的权值。 在relief算法的基础上,I.Kononerko[3]等人在其基础上得到了其扩展算法Relie
5、fF,ReliefF算法是从同类和不同类中选择k个距离最近的样本,然后计算平均值作为各个特征的权值[3]。将得到的特征进行排序,然后根据一定的规则来判定特征是有效还是无效的;或者选择n个权值最大的特征,去除其他特征来进行特征选择。6 特征选择的目的是选择和分类有较大相关的特征,特征选择没有改变特征的语义特征和数值,只是选择特征子集。将特征选择应用在数据发布中时,特征选择是选择和敏感属性有较大相关的准标识符属性,权值越高的说明该准标识符属性和敏感属性的相关性越高,那么该准标识符属性对于数据发布的研究价值和意义就越大,反之则
6、越小。原始数据集在经过了特征选择之后,数据属性个数减少,即数据的维度降低了,这样再对数据集进行匿名化时,匿名化的效率得到了提高,防止了数据“维度灾难”的发生,同时隐私泄露的风险也相应地降低了,但是在一定程度上增加了数据的信息损失。 3reliefF算法在数据发布隐私保护中的应用 特征选择算法选择的是对于分类最有利的特征。而在本文中,我们要选择的特征属性则是和敏感属性具有相关性的准标识符属性。本文提出的基于reliefF的匿名化方法主要思想是:首先使用reliefF算法得到每个数据属性的权值,即数据中每个属性和敏感属性的
7、相关性;然后按照一定的规则剔除一些数据属性,对剔除了数据属性的数据集进行微聚集得到匿名数据表。具体步骤如下: 步骤1:数据预处理1 1)将原始数据集中的不完整数据剔除; 2)去除元组中的冗余属性; 步骤2:数据预处理2 对预处理1中得到的数据集进行标准化,得到数据集T; 步骤3:使用reliefF算法对数据集T进行降维处理得到数据集T’ 该步计算元组每个属性的权值,先将权值小于0的属性去除,同时将大于0的属性权值进行排序;6 步骤4:使用MDAV算法对数据集T'进行微聚集得到数据集T'' 对整个数据集进行
8、微聚集,得到k值不同时的信息损失和隐私泄露风险; 剔除权值最小的属性得到新的数据集,对新的数据集进行微聚集,得 得到k值不同时的信息损失和隐私泄露风险; 多次执行,得到多个信息损失和隐私泄露风险,比较他们之间的差异,再结合数据属性的实际含义得到最后需要发布的数据集T" 基于reliefF的数据发
此文档下载收益归作者所有