毕业论文(设计)-基于匿名机制的数据发布中隐私泄露控制技术

毕业论文(设计)-基于匿名机制的数据发布中隐私泄露控制技术

ID:33898154

大小:197.84 KB

页数:38页

时间:2019-03-01

毕业论文(设计)-基于匿名机制的数据发布中隐私泄露控制技术_第1页
毕业论文(设计)-基于匿名机制的数据发布中隐私泄露控制技术_第2页
毕业论文(设计)-基于匿名机制的数据发布中隐私泄露控制技术_第3页
毕业论文(设计)-基于匿名机制的数据发布中隐私泄露控制技术_第4页
毕业论文(设计)-基于匿名机制的数据发布中隐私泄露控制技术_第5页
资源描述:

《毕业论文(设计)-基于匿名机制的数据发布中隐私泄露控制技术》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、第一章引言1.1研究背景数据发布环境屮存在的隐私泄露问题使得数据发布隐私泄露控制技术的研究成为学术界和工业界关注的一个焦点。数据发布中的原始数据由记录构成,每个记录均与一个个体相对应,数据的属性分为标识符、准标识符、敏感属性三类。数据发布时直接删除标识符以保护个体隐私。但是可能存在攻击者通过准标识符与外部公开的数据源进行链接攻击(LinkingAttack)[11,导致个体隐私的泄露。研究表明,这种链接攻击可以识别大量美国公民的身份⑴。例如,假设一个网站上发布了一个医疗信息表,为保护个体隐私,将原始数据中能识别个

2、体身份的标识符(姓名)删除之后得到数据发布表,如表1-1所示。表1-1属性组(年龄,性别,邮编)为准标识符,敏感属性为疾病。若攻击者可以从另一个网站上浏览如表1・2选民登记表的信息,获知表中法兰克的年龄展性值为45,性别属性值为男,邮编属性值为734532。攻击者很容易从表推出法兰克患有心脏病,造成了法兰克的隐私泄露。为了阻止数据发布中的链接攻击,一个有效的手段是对原始数据进行匿名化处理,从而控制个体隐私信息的泄露。表1-1医疗信息表年龄性别邮编疾病tl41女734562失眠t240女734552心脏病r341男

3、734532失眠tA44男734555心脏病t544男734555失眠t645男734532心脏病n41734561禽流感r842男734533禽流感t943女734553禽流感表1・2选民登记表姓名年龄性别邮编爱丽丝41女734562贝蒂40女734552约翰41男734532比尔44男734555艾迪44男734555法兰克45男734532凯恩41男734561杰克42男734533珍妮43女7345531・2国内外研究进展分析数据发布要求匿名数据既具有安全性又具有可用性,然而两者是相互矛盾的。因此,数据匿

4、名化研究的重点是设计高效的匿名保护模型和匿名算法,以使得匿名数据在保证安全性的同时,最大限度地提供可用性。目前,国内外匿名化技术的研究已经取得了许多的成果。121匿名保护模型1.2.1.1辰匿名模型(^-anonymity)定义1.1⑴h匿名假设八儿川2,…,An}为一个数据集为与Z相关的准标识符。当且仅当数据集卩中每个记录的准标识符属性值在数据集中至少出现比次,则该数据集满足£・匿名。定义1.2⑴等价类一个等价类即数据集八儿*2,…An}中一组具有相同准标识符属性值的记录。针对数据发布屮的链接攻击,文献[1,2

5、]提出了匕匿名技术。文献[3]提出实现匕匿名的泛化和隐匿方法,泛化是指在数据集中用抽象的属性值来代替原来具体的属性值,隐匿是指隐匿是指直接删除数据集中某些属性值或记录。h匿名通过泛化和隐匿使得等价类中毎个记录具有相同的准标识符属性值,攻击者无法将个体与某个记录对应起来,从而保护个体身份的泄露。例如,表1・3是表1・1的一个满足3■匿名模型的匿名化表,其屮,匿名参数K=3,准标识符为属性组(年龄,性别,邮编),敏感属性为疾病。表1・3中生成了3个等价类{“,2门},"4,(5,⑹,"3,r8,r9}。若在网站上用表

6、1・3代替表1.1的医疗信息表,那么攻击者即使知道表1・2选民登记表中某个记录的信息,也无法推断出该记录与表1-3中某一特定记录相关联。例如假设攻击者从1・2选民登记表中获知法兰克的信息,与表1・3链接时,虽然知道法兰克在{74,/5,,6}等价类屮,却无法将法兰克与其屮的某个记录相对应起来,从而避免法兰克隐私的泄露。表1-33■匿名化表1年龄性别邮编疾病[40-41]*7345**失眠t2[40-41]*7345**心脏病fl[40-41]*7345**禽流感t4[44-45]男7345**心脏病t5[44-4

7、5]男7345**失眠t6[44-45]男7345**心脏病t3[41-43]*7345**失眠r8[41-43]*7345**禽流感t9[41-43]*7345**禽流感但是,h匿名模型存在同质性攻击和背景知识攻击的问题⑷。R■匿名模型由于忽略了皱感属性值的多样性,可能造成个体墩感属性的隐私泄露,即同质性攻击。例如,假设表1・4是表M的另一个满足3■匿名模型的匿名化表,表1-4中生成了3个等价类{",t2,/3},"4,t5,⑹,{门,/8,r9}o如果攻击者从1・2选民登记表中获知杰克的信息,与表1・4链接起

8、来时,虽然无法确定杰克与表1-4中具体的某个记录相对应,但通过准标识符属性值可以知道杰克在表1・4的{/7,/8,/9}等价类中,由丁-该等价类的敏感属性值均为禽流感,攻击者容易知道杰克患有禽流感,杰克的隐私被泄露。同时,匿名还可能遭遇攻击者利用预先知道的背景知识来进行攻击。此外,「匿名模型由于通过泛化准标识符属性达到匿名的目的也导致大量原始信息的损失,降低了匿名数据的可

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。