欢迎来到天天文库
浏览记录
ID:57854417
大小:46.50 KB
页数:5页
时间:2020-04-01
《测试数据脱敏综合评价体系.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、测试数据脱敏综合评价体系摘要本文提出一种全面的测试数据脱敏方法评价体系,从高效性、有效性、真实性、稳定性及多样性五个方面来对测试数据脱敏需求及脱敏方法进行综合评估。测试数据脱敏综合评价体系测试数据脱敏工作通常涉及数据使用方及数据管理方两个角色,测试数据脱敏不仅要保证数据敏感性被去除,还要尽可能满足测试使用方的测试需求,同时还要确保其技术方案是可行且易于管理的。综合两方面角色考虑,本文从高效性、有效性、真实性、稳定性及多样性五个方面提出了一种全面的测试数据脱敏评价指标体系。(一)有效性测试数据脱敏的最基本原则就是要去掉数据的敏感性,保证数据安全,这是对测试数据脱敏最基本的要求,即有
2、效性。有效性主要从以下两个方面进行评价:1.相对于原有数据,脱敏后数据敏感性的去除程度。例如,对客户姓名采用置为常数的方法进行脱敏,脱敏后所有敏感的姓名数据都被置为某个没有敏感性的字符串,即数据敏感性完全去除;相对的,对客户姓名采用屏蔽若干位字符的方法(张三置为张*)进行脱敏,则脱敏后数据仍然保留了具有敏感性的姓信息,即数据敏感性部分去除。2.脱敏后数据可能被反推回具有敏感性原始数据的程度。采用的脱敏方法不一样,其破坏脱敏轨迹的程度也不一样,从而最终导致脱敏后数据被反推回脱敏钱数据的程度也不一样。例如,对客户姓名采用置为常数的方法进行脱敏,脱敏结果不可能被反推回原始数据;对客户姓
3、名采用按偏移值查姓名表的方法(按配置的固定偏移值选取表中假的姓名)进行脱敏,如果姓名表及配置偏移值泄露,脱敏结果是可能被反推出原始数据的。(二)真实性测试数据最终是需要在测试中使用,越能真实体现原始数据特征的脱敏后数据,越能更好地满足测试工作的需求。这是从数据使用方的角度来看对测试数据脱敏的基本要求,即真实性。真实性主要从以下两个方面进行评价:1.相对于原有数据,脱敏后数据业务逻辑特征的保留程度。任何数据都是具备一定业务逻辑特征的,例如客户姓名、身份证号、交易金额等数据都有明显的特征。对客户姓名采用置为常数的方法进行脱敏,脱敏后数据完全保留了客户姓名的特征;相对的,对客户姓名采用
4、每个姓名字符的码值偏移固定值的方法进行脱敏,则脱敏后数据为乱码,完全丧失了客户姓名的特征。2.相对于原有数据,脱敏后数据统计分布特征的保留程度。任何数据都是具备一定统计分布特征的,例如客户姓名数据中,有单姓多,复姓少,大姓多,小姓少,一些字符高频出现,一些字符根本不会出现等。对客户姓名采用置为常数的方法进行脱敏,脱敏后数据统计分布特征完全被破坏;相对的,对客户姓名采用按偏移值查姓名表的方法(按配置的固定偏移值选取表中假的姓名)进行脱敏,由于姓名表的数量远小于真实情况,故脱敏数据部分保留了统计分布特征;对客户姓名采用每个姓名字符的码值偏移固定值的方法进行脱敏,则完全保留了客户姓名的
5、特征。(三)高效性不同的测试数据脱敏方法,其实施难度是不一样的,是否能高效地完成数据脱敏,是从数据管理方的角度来看对测试数据脱敏的重要要求,即高效性。高效性主要从以下两个方面进行评价:1.测试脱敏方法实施的时间开销情况。实施脱敏的时间及计算资源占用越少越好。2.测试脱敏方法实施的空间开销情况。实施脱敏必须的存储空间越少越好。(四)稳定性由于原始数据间存在关联性(如两张表中都有客户姓名数据,并且业务要求两张表的客户姓名必须一致),如果对两张表分别脱敏后客户姓名数据不一致了,就会影响后期测试。这要求测试数据脱敏方法需要保证对相同的原始数据,只要配置参数一定,无论脱敏多少次,结果数据是
6、相同的,即稳定性。(五)多样性多样性即测试数据脱敏可能根据需求不同而生成不同脱敏结果的程度。这是从测试数据管理方的角度出发对测试数据脱敏的高级要求,一般情况,有配置参数的数据脱敏方法都可以按照输入参数不同而产生不同的测试结果,从而使得测试数据管理方可以方便的按测试场景,测试环境等因素为不同的测试项目提供不同的脱敏后数据环境,去除多个测试项目使用数据间的关联性,提高多项目数据使用的安全性。不同场景的测试数据脱敏需求分析商业银行应用系统测试过程中,不同的测试场景,测试数据脱敏的需求则不同。本节将上文提出测试数据脱敏综合评价体系中的五维评价指标进行分级细化,以此作为分析具体场景测试数据
7、脱敏需求的基础。为简化分析,本文将场景对于单个指标的最低要求从低到高分为三级或者两级,以数字1、2、3等代表不同分级,其中1代表场景对于该指标的要求最低,能容忍其表现不佳;2代表场景对于该指标的要求中等,能容忍其表现一般;3代表场景对于该指标的要求最高,需要其表现优秀。各指标具体分级依据如下:(一)有效性1级:相对于原有数据,脱敏后数据敏感性可允许部分非关键信息残留;脱敏后数据不易被反推回原始数据,如泄露多项关键配置数据,可能被反推,但反推难度较大。2级:相对于原有数据,脱敏后数
此文档下载收益归作者所有