面向大数据的隐私保护技术研究

面向大数据的隐私保护技术研究

ID:32996335

大小:97.25 KB

页数:6页

时间:2019-02-18

面向大数据的隐私保护技术研究_第1页
面向大数据的隐私保护技术研究_第2页
面向大数据的隐私保护技术研究_第3页
面向大数据的隐私保护技术研究_第4页
面向大数据的隐私保护技术研究_第5页
资源描述:

《面向大数据的隐私保护技术研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、面向大数据的隐私保护技术研究大数据的数量和多样化使得复杂的数据分析成为可能。数据分析不再仅仅是验证假设,也可能会产生一些Z前没有预想的知识。大数据在蕴含大量有价值的信息的同时,也有一些不良影响。隐私问题就是其中之一。收集人们在网络上留下的数据足迹,进行分析,个人隐私信息就有暴露的风险。恶意分子利用这些个人隐私信息进行不法行为,就会给个人带来麻烦。因此,大数据面临的隐私问题引起了工业界和学术界的广泛关注,是目前大数据的研究热点一、大数据隐私问题的分析与研究1.大数据的特点大数据不同于之前的数据仓库,它几乎分析所有类型的数据文件或者格式,包括图像、视频以及同社交媒体收集的数据。有研

2、究者总结大数据的特点为4V,即数据量(Volume)、多样性(Variety)、时效性(Velocity)和数据准确性(Veracity)。大数据有别于传统数据,也无法使用常规的工具进行收集、存储和管理。大数据的特征如图1所示。图1大数据的特征1.隐私的概念隐私的概念在社会科学领域被研究了大概100年,但是并没有一个明确的定义。具体什么被界定为隐私,不同的文化或者是个人可能会有不同的内容。但在总体意义上,某些数据是某人或者是团体的隐私时,意味着这些数据对他们而言是不愿被暴露的。隐私保护就是让个人或者团体不愿让别人知道的事情可以不被人在不允许的情况下知道。在具体的应用情景屮,不同

3、的人,对不同的事情,隐私的定义也会存在差别。2.大数据带来的隐私风险(1)数据收集带来的风险。在大数据环境中,可以通过收集用户的购物记录、网站搜索记录、医疗就医记录、手机通话记录、位置轨迹记录等来获取用户的信息。但这些信息的收集通常是在用户未知情的情况下进行的。用户很少知道是谁收集了自己的信息或者是谁使用了自己的信息,自己的信息什么时候会被销毁,或者自己的信息被滥用应该找谁负责。在这种情况下,用户的隐私风险非常巨大。而这类风险又缺乏规范与法律法规的监管,通常只能依靠信息收集者的自觉。在目前的大数据应用中,用户有权利选择自己数据的用途,在收集个人信息之前应得到用户的同意。政府需要

4、加强相关法律法规的建设来保护用户的这些权利。(2)数据融合带來的风险。数据的融合通常采用链接操作使多个不同的数据源集成在一起,并且识别出相应的实体。单个数据源通常能够反映出用户的某个活动,比如购买的商品、搜索的网站、社交网络互动信息等。融合不同的数据源可以更好地服务于数据的管理。但是多个数据源的集成与融合几乎能够推理出个人所有的皱感信息,给个人的信息泄露带來了极大的风险。(3)数据分析与挖掘带来的风险。数据分析与挖掘即是从发布的数据中挖掘出有价值的信息,这很有可能分析出用户的隐私信息。大数据分析与挖掘带来的风险一方面是泄露隐私信息,另一方面也会导致隐私保护方法失效。所以还需要研

5、究针对大数据挖掘的隐私保护技术。3.大数据隐私保护模型图2大数据隐私保护生命周期模型根据大数据的牛命周期,提出相应的牛命周期隐私保护模型。该模型给出了大数据收集、融合和分析与挖掘的整个生命周期中,每个阶段可能遇到的风险和相应技术,具体如图2所示。(1)数据收集阶段。大数据采集和发布面临的风险是数据的动态变化,而R针对同一用户的数据来源众多、总量巨大。如何在数据发布时,在保证用户数据可用的情况下,去掉用户隐私的内容,是一个重要的问题。(2)数据分析与挖掘阶段。针对数据分析与挖掘的隐私保护目标是尽可能提高大数据的可利用性,同时能进行数据隐藏,以防止通过数据分析引发隐私泄露。目前的主

6、要技术包括基于数据失真和加密的方法。二、大数据隐私保护关键技术分析1.匿名化技术匿名化技术的原理是隐藏或者模糊数据及数据源,k-匿名是该技术的代表方法。k-匿名未对等价类屮皱感属性进行约束,若等价类在皱感属性上取值单一,即使无法获取特定用户的记录,攻击者仍能获得目标用户的隐私信息。研究者提出了1-divcrsity匿名策略。—diversity保证每一个等价类至少有1个不同敬感属性值,避免了k-匿名中的缺陷。在大数据环境中,数据的动态更新是大数据的重要特点之一。一旦数据集更新,数据发布者便需要重新发布数据,以保证数据的可用性。为此,研究者提出了基于动态数据集的匿名策略,这些技术

7、包括支持新增的数据重发布匿名技术、基于角色构成的匿名等支持数据动态更新匿名保护的策略。这些匿名策略不但可以保证每一次发布的数据都能满足某种匿名标准,攻击者也将无法联合历史数据进行分析与推理。大数据环境屮,数据的多源化是大数据的另外一个重要特点,也为数据发布匿名技术带来了新的挑战。攻击者可以从多个数据源中获得足够的数据信息以对发布数据进行去匿名化。现有的匿名策略还难以预防该类攻击,有待进一步的研究。2.数据加密技术对于含有敏感信息的大数据来说,将其加密后存储在云平台上能够保护用户的隐私信息。选

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。