欢迎来到天天文库
浏览记录
ID:56481806
大小:2.72 MB
页数:35页
时间:2020-06-24
《个人信息去标识化探讨.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、个人信息去标识化探讨金涛全国信安标委大数据安全标准特别工作组大数据系统软件国家工程实验室清华大学软件学院2018年6月8日《网络安全法》要求第十八条国家鼓励开发网络数据安全保护和利用技术,促进公共数据资源开放,推动技术创新和经济社会发展。第四十二条网络运营者不得泄露、篡改、毁损其收集的个人信息;未经被收集者同意,不得向他人提供个人信息。但是,经过处理无法识别特定个人且不能复原的除外。“匿名化”出现6次“去标识化”总计出现12次标识符概念•标识符identifier•微数据中的一个或多个属性,可以实现对个人信息主体的唯一识别。•
2、直接标识符directidentifier•微数据中的属性,在特定环境下可以单独识别个人信息主体。例如:姓名、身份证号、护照号、驾照号、地址、电子邮件地址、电话号码、传真号码、银行卡号码、车牌号码、车辆识别号码、社会保险号码、健康卡号码、病历号码、设备标识符、生物识别码、互联网协议(IP)地址号和网络通用资源定位符(URL)等。•注:特定环境指个人信息使用的具体场景。比如,在一个具体的学校,通过学号可以直接识别出一个具体的学生。•准标识符quasi-identifier•微数据中的属性,结合其它属性可唯一识别个人信息主体。比如
3、:性别、出生日期或年龄、事件日期(例如入院、手术、出院、访问)、地点(例如邮政编码、建筑名称、地区)、族裔血统、出生国、语言、原住民身份、可见的少数民族地位、职业、婚姻状况、受教育水平、上学年限、犯罪历史、总收入和宗教信仰等。去标识化与脱敏的区别ISO/IEC20889ISO/IEC27038Informationtechnology-SecurityInformationtechnology—Securitytechniques--Privacyenhancingtechniques—Specificationfordata
4、de-identificationtechniquesdigitalredaction遮蔽去标识化删除脱敏de-identification……redaction标识信息敏感信息去标识化核心任务•降低区分度•断开和个人信息主体的关联识别是特定人的信息识别是同一个人的信息个人信息主体不能识别是同一个人的信息常用去标识化技术和模型统计加密抑制假名泛化随机合成K匿名差分隐私统计技术(Statisticaltechniques)•数据抽样(Sampling)•因为是部分数据,无法确定主体是否被抽中•数据聚合(Aggregation)•
5、统计结果,无个体信息密码技术(Cryptographictechniques)•确定性加密(Deterministicencryption)•保序加密(Order-preservingencryption)•保留格式加密(Format-preservingencryption)•同态加密(Homomorphicencryption)•同态秘密共享(Homomorphicsecretsharing)抑制技术(Suppressiontechniques)•屏蔽(Masking)•局部抑制(Localsuppression)•记录抑
6、制(Recordsuppression)440524188*****0014假名化技术(Pseudonymizationtechniques)•独立于标识符的假名创建•基于密码技术的标识符派生假名创建泛化技术(Generalizationtechniques)•取整(Rounding)•如果取整基数为10,观察值为7,应将7向上取整至10,概率为0.7,若向下取整至0,概率为0.3。•顶层与底层编码(Topandbottomcoding)•如果一个人的薪水非常高,则可将该用户的薪水值设置为“高于X元”随机化技术(Randomi
7、zationtechniques)•噪声添加(Noiseaddition)•置换(Permutation)•微聚集(Microaggregation)数据合成技术(Syntheticdata)•根据需要,按照原始数据的特征生成数据按特配置征生数据特成数征分析据数据输入K-匿名模型(K-anonymitymodel)•K-匿名模型要求发布的数据中,指定标识符(直接标识符或准标识符)属性值相同的每一等价类至少包含K个记录,使攻击者不能判别出个人信息所属的具体个体,从而保护了个人信息安全。•L-多样性(L-diversity)•T-
8、接近性(T-closeness)差分隐私模型(Differentialprivacymodel)•差分隐私确保数据集中任何特定的个人信息主体的存在与否无法从去标识化数据集或系统响应中推导出。•服务器模式(Servermodel)•本地模式(Localmodel)姓名年龄心脏病
此文档下载收益归作者所有