资源描述:
《K-匿名隐私保护相关技术探究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、K-匿名隐私保护相关技术探究【摘要】在数据发布领域,k-匿名技术是一种简单有效的隐私数据保护技术。因此国内外专家学者们对匿名化技术开展了广泛深入的研究工作以寻求防止或减少隐私泄露的有效方法。本文根据已有的一些研究结论,阐述了匿名化技术的一般概念、匿名化原则、匿名化方法和匿名化度量等方面,并且介绍了两种经典的匿名化算法。【关键词】数据发布;匿名化技术;k-匿名1.引言计算机处理能力、存储技术及网络技术的快速发展,信息技术在组织中发挥的作用日益增加,一方面,使得信息共享较之以前来得更为容易和方便,以数据库为基础的应用系统成为经济、金融、医疗等领域的信息基础设施,大大地提高了组织的信息化程度;但是另
2、一方面,这也使得数据库系统面对更多的安全威胁,随之产生的隐私信息泄露现象屡见不鲜,越来越多的因故意或疏忽造成的数据泄露的例子,使人们对数据库中的隐私保护问题日益重视。信息化过程中如何在实现有效的信息共享的同时,有效地保护私有敏感信息不被泄漏,已成为信息安全领域一个活跃的研究方向。Cox在1980年最先提出使用匿名的方法实现隐私保护,1986年Dalenius在针对人口普查记录集的隐私保护应用了匿名技术。自从匿名化概念提出以来,很多国内外的学者对匿名化技术开展了广泛的研究。例如L.Sweeney提出了一种用来保护私有信息的k-匿名模型[1]。Ji-WonByun,AshishKamra,Elis
3、aBertino,andNinghuiLi在2007年提出了基于聚类的高效k-匿名话算法[2]。在这篇文章中提出,K匿名问题不需要有簇的数量的限制,但是每个簇中至少含有k条记录,所以,提出可以把k-匿名问题当作聚类问题,被称为k-memberclusteringproblem0现在生活中,人们都很注重隐私保护,尤其像是在医院和银行这种场合,大多数人可能并不愿意让别人知道自己的具体情况,所以怎样既可以做到不泄漏个人的隐私,又可以利用医院和银行中的个人信息做科学研究,这种问题正是我们研究匿名发布信息的重要意义所在。下面文章将在第2部分介绍数据发布和匿名发布的相关概念及定义,第3部分介绍常见的匿名算
4、法,第4部分小结。2•相关概念,相关定义1.1匿名技术[3]匿名技术:是身份隐藏中最直接的技术。它作为隐私保护的数据挖掘技术不对数据挖掘结果进行保护,也不将原始数据进行隐藏伪装,而是公布带隐私的所有数据,但是他人拿到隐私数据却不能推导出该数据拥有者的身份。2.2匿名发布技术相关定义[4]定义1:属性令:B(A1,…,An)是一个有限数量元组的一个表,B的有限元属性元组是{A1,…,An}。假设表B(A1,…,An),{Ai,…,Aj}{Al,…,An},有一个元组tWB,用t[Ai,…,Aj]来表示t中Ai,•••,Aj的值vi,…,vj的有序序列。用B[Ai,…,Aj]来表示投影,维持B中属
5、性Ai,-Aj的元组复制。定义2:类标识符假设一个实体集U,—个特定的实体表T(A1,…,An),fc:U^T以及fg:T-U,,其中UU'.T的一个类标识符记为QT,是一组属性{Ai,…,Aj}{Al,…,An}其中:pi$U所以fg(fc(pi)[QT])=pi.成立。定义3:k-匿名RT(A1,,An)是一个表QIRT是与RT有关联的类标识符,并且仅当在RTEQIRT]中出现的每一个有序的值至少要在RTCQIRT]中出现k次的话,就说RT满足k-匿名。推论:假设RT(A1,…,An)为一个表,QIRT=(A1,…,An)是与RT相关联的类标识符,Ai,,AjAl,…,An,RT满足甘匿名
6、,那么在RT[Ax]中出现的每一个值的有序序列至少要在RTEQIRT]中出现k次,x=i,…,jo2.3信息发布度量相关定义2.3.1A匿名问题转换成聚类问题[2]定义1:k-memberclusteringproblemk-memberclusteringproblem需要从给出的n条记录中寻找一组簇,每个簇中至少含有k(k7、表示簇e的大小,表示在第i个数据项,△(x,y)表示数据x和y的距离。2.3.2距离函数每个聚类问题的核心是用距
8、离函数处理各个数据点的不同和使成本函数在聚类问题中最小。数据通常有数值型数据和类别型数据,对于数值型数值,描述两个数据之间的差异就是两个数据的价值差异。这种处理方法同样适用于处理k-匿名问题中的数值型数据。定义2:数值型数据距离函数用D表示有限的数值域,数据vl,v2(vl,v2WD)之间的距离可以定义为:其中vl,v2为两数值型数据,
9、D
10、为有限数值域D的区间大小。类别型数值可以用类别树表示,假