欢迎来到天天文库
浏览记录
ID:36653575
大小:292.74 KB
页数:6页
时间:2019-05-13
《基于个人化匿名的k匿名方法的分析与改进》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、第卷第期燕山大学学报年月文章编号:1007-791X(2008)01-0004-06基于个人化匿名的-匿名方法的分析与改进李丽乐,刘国华,何丽荣,金黎黎(.燕山大学信息科学与工程学院,河北秦皇岛)摘要:介绍了匿名的基本概念及相关研究,分析了匿名应用的局限性及匿名表存在的缺点。基于这种现状,提出了对匿名一种新的改进方法。该方法基于个人化匿名的观点,个人可以通过分类树中的节点指定自己的隐私保护程度。该方法将概括分为两步概括和概括,从而,实现了满足每个人隐私要求的最小量的概括,最大程度地保留了原始数据中信息。关键词:概括;匿名;个人化匿名中图分类号:TP309.2文献标识码:A
2、引言如果攻击者能够访问选民信息表,如表所示,通过两个表中属性的为了研究需要,一些机构经常要发布个人信链接,很容易确定病人的身份。这就是所谓的链接息。例如,一家医院公布病人的诊断记录,以便于攻击。这个属性叫做准标识符。研究人员研究各种疾病的特征。原始数据中包含个人的身份属性(如姓名),为了保护个人的隐私信表选民登记表息不被泄漏,往往会在信息发布之前去掉身份属性。从而认为个人隐私信息是安全的。但是这种想法是错误的,因为存在其他一些属性的组合仍然可以唯一地或近似唯一地标识元组,这些属性如果与得到的其他公开发布的信息进行链接往往会导致个人隐私信息的泄露。例如,假设医院发布的病人的
3、医疗信息表如表所示,表中没有显示病人的姓名。表医疗信息表为了防止链接攻击并保证发布数据的完整性,和在年提出了匿名模型。匿名的基本思想是通过找出数据持有者能够识别出的可以与外部信息相连接的私有信息的全部关键属性,禁止通过这些属性将释放信息与外部信息连接起来,也就是说,匿名保护模型通过检验视图中基于某些关键属性的相同元组个数是收稿日期:基金项目:国家自然科学基金资助项目()作者简介:李丽乐(),女,河北藁城人。硕士研究生。主要研究方向为空间数据库,数字图书馆,数据库安全。第期李丽乐等基于个人化匿名的匿名方法的分析与改进否为个来判定视图安全。一种极端的情况是或某些属性的值同时进
4、行概括。不满足匿名,此时,攻击者能够明确地知道秘密基于全域概括的主要算法有:查询中的部分或者全部元组信息,这种情况是不允)算法。将视图在准标识符上的投影许的,不能够发布这样的视图。所以,只有在满足作为子表进行处理,并循环如下操作:当子表中不匿名的条件下,才允许该视图的发布。年,满足匿名约束的记录数大于时,将子表中不同对匿名作了修改和扩充,并用实验进属性值个数最多的属性进行概括;循环结束后将剩行了论证。同年,提出了基于匿余的不满足匿名约束的记录隐匿(即删除);名保护模型无法满足的一些特例,并提出了相应的解决方法。)算法。分别对表中的每个属性进行匿名化,然后检查各个属性组合是
5、否满足匿基本概念名,对不满足匿名的属性组合再选择某个属性进行概括。算法所生成的表有时不能满足定义(概括)概括是指将一些特殊的属性匿名约束,原因在于此算法并不能对所有的属性组值用比较一般的值来代替。合进行检查;定义(隐匿)隐匿可以看作是一种最高级)算法。先找出原始表的所有满足别的概括,隐匿指的是将要概括数据的值用“”匿名约束的概括表,再从中求出具有最高精度的代替。匿名表。算法没有给出如何找出原始表定义(准标识符)将发布的数据中能的所有满足匿名约束的概括表的算法,而且如果和外部的信息进行连接的全部属性定义为准标识在单元级上进行概括的话此问题可能成为难符()。题;定义(匿名)通
6、过对准标识符中属性值)和算法。年,刘向的概括操作,使得发布数据在准标识符上投影得到宇、杨晓春等人提出了算法,并于的元组多重集中每个元组重复的次数至少为年提出了支持多匿名约束的算法,。和算法采用的是概括过滤思想,即先定义(匿名约束)如果表在属性集将发布视图在准标识符上的投影表中满足匿名上投影所得到的元组多重集约束的元组过滤出去,再对剩余元组中不同属性值中,每个元组的重复次数至少为个数最多的属性进行概括,如有满足匿名约束的,则称表在属性集上满足元组再过滤出去,反复执行上述的概括和过滤操匿名约束。作,直到不满足匿名约束的元组个数小于为止,最后将不满足匿名约束的元组隐匿;定义(匿
7、名化)设表的准标识符为,如果通过对表中数据的概括和隐匿等修改操作,使)算法。先作出对每个属性进行不得表在准标识符上满足匿名约束,则对表的概同层次全域概括的概括层次图,然后在概括层次图括过程称为匿名化。表就是表经过匿名化中利用由下到上的深度优先算法找出所有的满足得到的一个匿名表。匿名约束的概括表;)多维匿名算法。在多维空间上对所有元相关研究组进行划分,使划分的每个子集中元组个数至少为目前,对匿名的研究主要有匿名化方法的,然后对准标识符上的多个属性值同时进行概括,研究,匿名的判定研究,匿名的改进研究。使划分的每个元组子集具有相同值
此文档下载收益归作者所有