1、,个人信息去标识化探讨,推进互联网+智慧医疗,网络安全法要求,第十八条国家鼓励开发网络数 据安全保护和利用技术,促进 公共数据资源开放,推动技术 创新和经济社会发展。第四十二条网络运营者不得泄露、篡改、毁损其收集的 个人信息;未经被收集者同意,不得向他人提供个人信息。但是,经过处理无法识别特定个人且不能复原的除外。,“匿名化”出现6次“去标识化”总计出现12,次,去标识化与脱敏的区别,去标识化de-identification,脱敏redaction,标识信息,敏感信息,遮蔽删除,ISO/IEC 27038Information technology Security techniques S
2、pecification for digital redaction,ISO/IEC 20889Information technology-Security techniques-Privacy enhancing data de-identification techniques,去标识化核心任务,降低区分度断开和个人信息主体的关联,识别是特定人的信息识别是同一个人的信息 不能识别是同一个人的信息,个人信息主体,常用去标识化技术和模型,加密,抑制,假名,泛化,随机,合成,K匿名,差分隐私,统计,统计技术(Statistical techniques),数据抽样(Sampling)因为是部分
3、数据,无法确定主体是否被抽中数据聚合(Aggregation)统计结果,无个体信息,密码技术(Cryptographic techniques),确定性加密(Deterministic encryption)保序加密(Order-preserving encryption)保留格式加密(Format-preserving encryption)同态加密(Homomorphic encryption)同态秘密共享(Homomorphic secret sharing),抑制技术(Suppression techniques),屏蔽(Masking)局部抑制(Local suppression)记
4、录抑制(Record suppression)440524188*0014,假名化技术(Pseudonymization techniques),独立于标识符的假名创建基于密码技术的标识符派生假名创建,泛化技术(Generalization techniques),取整(Rounding)如果取整基数为10,观察值为7,应将7向上取整至10,概率为0.7,若向下取整至0,概率为0.3。顶层与底层编码(Top and bottom coding)如果一个人的薪水非常高,则可将该用户的薪水值设置为“高于X元”,随机化技术(Randomization techniques),噪声添加(Noise a
5、ddition)置换(Permutation)微聚集(Microaggregation),数据合成技术(Synthetic data),根据需要,按照原始数据的特征生成数据,数据输入,数据特 征分析,配置,按特征 生成数 据,K-匿名模型(K-anonymity model),K-匿名模型要求发布的数据中,指定标识符(直接标识 符或准标识符)属性值相同的每一等价类至少包含K个记 录,使攻击者不能判别出个人信息所属的具体个体,从 而保护了个人信息安全。L-多样性(L-diversity)T-接近性(T-closeness),差分隐私模型(Differential privacy model),差
6、分隐私确保数据集中任何特定的个人信息主体的存在与否无法从去标识化数据集或系统响应中推导出。服务器模式(Server model)本地模式(Local model),2,4,3,3,1,4,20,3040,50,60,70,80,1,3,2,年龄,心 脏 病 人 数 4,1,3,2,5,2,3,20,3040,50,60,70,80,1,3,2,年龄,心 脏 病 人 数4,选择去标识化模型技术,是否需要对重标识风险进行量化;聚合数据是否够用;数据是否可删除;是否需要保持唯一性;是否需要满足可逆性;是否需要保持原有数据值顺序;是否需要保持原有数据格式,如数据类型、长度等保持不变;是否需要保持统计特
7、征,如平均值、总和值、最大值、最小值等;是否需要保持关系型数据库中的实体完整性、参照完整性或用户自定义完整性;是否可以更改数据类型,比如在针对字符串类型的“性别”(男/女)进行去标识化时,是 否可以变成数字类型表示(1/0);是否需要满足至少若干个属性值相同,以加强数据的不可区分性;是否可以对属性值实施随机噪声添加,对属性值做微小变化;去标识化的成本约束。,参数设置,美国加拿大重标识阈值一般:0.33默认值:0.2HIPAA:20K ruleCensus Bureau:100k ruleStatistics Canada:70k ruleBritish census:120k rule,De-
8、identification Maturity Model,去标识化场景,个人信息主体,去标识化对象,去标识化结果数据,去标识化,数据接收者,重标识,结果导向防范重标识风险,重标识方法分离:将属于同一个个人信息主体的所有记录提取出来。关联:将不同数据集中关于相同个人信息主体的信息联系起来。推断:通过其它属性的值以一定概率判断出一个属性的值。重标识攻击重标识一条记录属于一个特定个人信息主体重标识一条特定记录的个人信息主体尽可能多的将记录和其对应的个人信息主体关联判定一个特定的个人信息主体在数据集中是否存在推断和一组其它属性关联的敏感属性,去标识化过程确定目标,确定目标,识别标识,验证批准,监 控
9、 审 查,确定去标识化对象建立安全目标重标识风险阈值有用性阈值制定工作计划,去标识化过程识别标识,确定目标,识别标识,验证批准,监 控 审 查,查表识别法规则判定法 人工分析法,去标识化过程处理标识,识别标识,验证批准,监 控 审 查,预处理选择模型技术是否需要对重标识风险进行量化;聚合数据是否够用;数据是否可删除;是否需要保持唯一性;是否需要满足可逆性;是否需要保持原有数据值顺序;是否需要保持原有数据格式,如数据类型、长度等保持不变;是否需要保持统计特征,如平均值、总和值、最大值、最小值等;是否需要保持关系型数据库中的实体完整性、参照完整性或用户自定 义完整性;是否可以更改数据类型,比如在针
10、对字符串类型的“性别”(男/女)进行去标识化时,是否可以变成数字类型表示(1/0);是否需要满足至少若干个属性值相同,以加强数据的不可区分性;是否可以对属性值实施随机噪声,添加,对属性值做小变化;去标识化的成本约束。,实施去标识化,去标识化过程验证批准,确定目标,识别标识,验证批准,监 控 审 查,验证个人信息安全验证数据有用性评审批准去标识化工作,去标识化过程监控审查,确定目标,识别标识,处理标识,验证批准,监 控 审 查,监控审查去标识化步骤持续监控去标识化效果,去标识化面临的挑战,聚合技术的挑战高维数据的挑战 关联数据的挑战 组合的挑战增量去标识化的挑战,HIPAA去标识化,https:/www.hhs.gov/hipaa/for-professionals/privacy/special-topics/de-identification/index.html,
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1