生命周期模型下数据匿名化处理的合法性探究以患者医疗数据保护为例.docx

上传人:b****5 文档编号:6736169 上传时间:2023-01-09 格式:DOCX 页数:11 大小:118.93KB
下载 相关 举报
生命周期模型下数据匿名化处理的合法性探究以患者医疗数据保护为例.docx_第1页
第1页 / 共11页
生命周期模型下数据匿名化处理的合法性探究以患者医疗数据保护为例.docx_第2页
第2页 / 共11页
生命周期模型下数据匿名化处理的合法性探究以患者医疗数据保护为例.docx_第3页
第3页 / 共11页
生命周期模型下数据匿名化处理的合法性探究以患者医疗数据保护为例.docx_第4页
第4页 / 共11页
生命周期模型下数据匿名化处理的合法性探究以患者医疗数据保护为例.docx_第5页
第5页 / 共11页
点击查看更多>>
下载资源
资源描述

生命周期模型下数据匿名化处理的合法性探究以患者医疗数据保护为例.docx

《生命周期模型下数据匿名化处理的合法性探究以患者医疗数据保护为例.docx》由会员分享,可在线阅读,更多相关《生命周期模型下数据匿名化处理的合法性探究以患者医疗数据保护为例.docx(11页珍藏版)》请在冰豆网上搜索。

生命周期模型下数据匿名化处理的合法性探究以患者医疗数据保护为例.docx

生命周期模型下数据匿名化处理的合法性探究以患者医疗数据保护为例

生命周期模型下数据匿名化处理的合法性探究——以患者医疗数据保护为例

摘要:

作为平衡医疗大数据应用与患者隐私保护二者价值之关键,匿名化技术愈来愈成为人们关注和研究的对象,数据匿名化处理行为的合法性也成为大数据发展在法律层面所亟需解决的问题。

在欧盟和美国匿名化立法的基础之上,引入数据生命周期模型,可实现对匿名化处理行为合法性问题的全面而系统的分析研判。

在生命周期模型下,合法性问题应从三个阶段进行考量:

事前行为合法是数据匿名化处理行为合法性之前提条件,匿名化处理行为合法是其合法性之核心要件,事后行为的风险管控是保持其合法性之必然要求。

数据匿名化处理行为合法与否必须立足数据生命周期的整体,综合考虑三阶段的合法性,作出最终判断。

关键词:

数据匿名化;患者医疗数据;隐私保护;数据生命周期

内容目录:

0 引 言

1 现有立法和研究的不足

1.1 欧盟匿名化处理立法

1.2 美国去识别行为立法

1.3 不足之处

2 数据生命周期模型与匿名化处理合法化

2.1 数据生命周期模型引入

2.2 构建匿名化处理合法性的分析模型

3 事前行为——数据匿名化处理合法化的前提条件

3.1 数据产生:

患者的医疗数据权利

3.2 数据收集行为的合法性判断

3.3 数据存储行为的合法性判断

4 数据匿名化处理行为的合法标准

4.1 需达到无法直接或间接识别至特定个人之效果

4.1.1 针对直接识别:

HIPAA隐私规则之安全港模式

4.1.2 针对间接识别:

专家决策模式与欧盟“三性标准”相结合

4.2 不可再识别的行为主体

4.3 用尽所有合理可能之再识别方法

5 事后行为——合法匿名化处理的剩余风险管理

5.1 剩余风险管理的责任主体

5.2 剩余风险的评估因素

5.3 剩余风险的合理控制手段

6 结 语

0 引 言

随着国务院于2016年8月正式将健康医疗大数据应用发展纳入国家大数据战略布局,长期积于底层的患者医疗数据必将在大数据、人工智能、神经网络、深度学习等现代信息技术的助力下,逐渐得到开发和利用,在健康管理、辅助诊疗、医学研究、医药研发等应用领域发挥其基础性、关键性的作用。

为实现健康医疗大数据应用发展的可持续推进,保障健康医疗数据安全以及患者隐私也一并提出加以重视,“利用+保护”兼顾成为国家医疗大数据发展战略的基本原则遵循。

然医疗数据的“利用”与“保护”存在价值取向上的根本冲突,“利用”追求数据自由流通,“保护”则关注患者医疗数据隐私,追求患者人格尊严获得最大程度的尊重。

如何同时兼顾并实现二者共存,数据匿名化处理为我们提供了一种迄今为止较为合理的解决方案,甚至被称之为“两个世界妥协之最好实践”。

匿名化技术是未来大数据产业发展的关键,数据匿名化处理行为合法性问题的探讨也紧随而至。

1 现有立法和研究的不足

1.1 欧盟匿名化处理立法

对个人数据保护采取统一立法模式的欧盟,对匿名化数据的成文法规制主要体现在《通用数据保护条例》(Regulation2016/679,以下简称GDPR)之中。

GDPR在继承《数据保护指令》(Directive95/46/EC)的基础上进一步明确界定了匿名化数据的法律地位和规制态度。

GDPR前言第26条表明:

第一,GDPR所确立的数据保护原则适用于已识别或可识别自然人的任何信息,排除了对匿名化数据的适用;第二,匿名化数据是指在考虑所有合理可能使用的匿名化技术之后,控制者或其他人仍无法直接或间接识别至具体个人的数据;第三,在判断是否采取了合理可能的匿名化技术时,应考虑到所有客观因素,如鉴定费用和再识别所需时间,同时考虑到现有技术的发展现状。

对于患者医疗数据的法律规制,鉴于其涉隐私和人格尊严性更为突出,GDPR将其作为特殊类型个人数据,采取相比一般个人数据而言更为严格的数据保护原则。

GDPR第9条采取“禁止+例外”的模式,原则上禁止对患者医疗数据的匿名化处理,仅在特定例外情形下允许处理。

同时,GDPR授权各成员国可根据本国公共政策需要对涉及基因数据、生物识别数据或健康医疗数据的处理进行特别限定,以有效保护本国公民隐私利益和公共利益。

欧盟成文立法对匿名化处理的规制停留在概念和原则阶段,缺乏更为具体的操作指引。

早在2014年,欧盟第29条工作组(欧盟数据保护委员会前身)出台了《关于匿名化技术的意见》(以下简称《匿名化意见》),在欧盟个人数据的匿名化处理立法的基础上,进一步论证了对个人数据进行匿名化处理的合法性基础,并逐一从指向性、关联性和推断性三个标准对主要的匿名化技术进行风险评估,认为匿名化技术匿名是相对的,会随着关联数据的累积、应用场景的差异以及再识别技术的发展等因素而使重新被识别的风险增大。

1.2 美国去识别行为立法

与欧盟不同,美国联邦层面并没有统一的个人信息保护法,采取的是分部门分领域的分散立法模式,且置于隐私权保护体系之下。

在健康数据领域,则以《健康保险携带和责任法案》隐私规则(以下简称HIPAA隐私规则)为代表。

HIPAA隐私规则对匿名化的表述为“去识别化”(De-identifiction),去识别健康信息的含义是无法识别或者有合理理由相信无法识别至具体个人的健康信息。

具体实施上规定了两个方式,其一,专家决策模式(ExpertDetermination),要求具备公认的科学统计方法等知识或经验的人认为信息不具备可识别性;或者其二,安全港模式(SafeHarbor),删除个人及其他密切相关人员的唯一识别号、特征或代码。

在去识别信息的再识别(Re-identification)规制上,HIPAA隐私规则通过白名单方式确认为法律所许可的再识别方式,并对其进行严格的限制,识别后的信息将重新落入受保护健康信息的概念范畴,受HIPAA隐私规则的全面规制。

美国卫生部(HHS)负责HIPAA隐私规则具体实施的民权办公室(OCR),于2012年专门发布了《关于受保护健康信息的去识别方式指南》(以下简称《去识别指南》),指南主要对HIPAA隐私规则中合法去识别的专家决策模式和安全港模式进行了详尽解释,以进一步增强两种方式的可操作性。

在此需予以区分的是,虽然我国于2019年亦发布了《信息安全技术——个人信息去标志化指南》(GB/T37964-2019),但其中“去标志化”的含义仅指“通过对个人信息的技术处理,使其在不借助额外信息的情况下,无法识别个人信息主体的过程。

”与HIPAA隐私规则中的去识别化虽然英文用词(均是De-identifiction)一致,但具体含义更加偏向欧盟的假名化(Pseudonymisation),假名化严格意义上并不属于匿名化技术。

《信息安全技术——个人信息安全规范》(GB/T35273-2020)明确区分了“匿名化”和“去标志化”,其“匿名化”才是本文的研究对象。

1.3 不足之处

在医疗数据领域,美国去识别专门立法更加细致具体和具有可操作性,欧盟的匿名化规则逻辑更加完整,调整范围不限于医疗数据。

但二者在匿名化处理的合法性判断上,均只重点着眼于匿名化处理所得数据是否能达到法律规定的合法标准,并如何细化和明确这一标准,缺乏对匿名化处理的事前行为和事后行为合法性的关注。

在对数据进行匿名化处理之前,处理者是否合法拥有此数据、处理行为是否具备充分的合法性基础;在对数据进行匿名化处理之后,处理者是否采取了必要措施加强对匿名化数据再识别的剩余风险管理,这些均应当成为数据匿名化处理合法性判断的重要依据。

纵观我国学者对匿名化行为合法性的讨论,金耀(2016)以数据匿名化法律标准为研究对象,立足匿名化处理技术本身的合法性,主张应区分不同数据类型采取相适应的匿名化法律标准。

王融(2016)分事前、事中和事后三阶段,事前阶段应充分告知并取得患者同意,还应进行隐私风险评估;事中阶段,根据隐私风险评估对匿名化技术进行相应调整;事后阶段应始终保持数据的匿名化状态。

张晨原(2017)着眼于匿名化处理本身,认为应当根据匿名化技术再识别风险的大小,采取不同程度的风险应对措施,不能一刀切式管理。

张涛(2019)主要关注匿名化处理合法性的法律标准与技术标准的明确界定,并对去匿名化风险从事前和事后进行符合法律标准的评估。

虽然学界在谈及数据匿名化行为的合法性问题时已初露事前、事中和事后三阶段的分析思路,但实质上只是为了其中某一阶段研究而附带提及其他阶段以求逻辑自洽,并未真正以三阶段为研究对象展开系统分析。

且其中有关事前、事中和事后三阶段的讨论过于简略和抽象,缺乏系统性。

为弥补这一不足,笔者引入数据生命周期模型,在此模型基础上,分事前行为、数据匿名化处理行为(事中)以及事后行为三个阶段对数据匿名化处理的合法性问题进行全面系统的分析。

2 数据生命周期模型与匿名化处理合法化

生命周期的概念源于生物领域,科学家用其描述寄生物扁虱从一个宿主转换到另一宿主的生命周期过程,宿主为扁虱的整个生命周期提供支撑生存的环境。

后来,这一概念被广泛运用于数据利用与管理领域,为政府数据、图书馆数据等公共数据的开发利用提供实践管理和理论研究的分析模型。

不同于生物领域的生命周期(LifeSpan)从产生至消亡,数据生命周期(DataLife-cycle)则是对数字化资源进行长期保存、提供获取,最终用于支持研究、政策制定等再利用的活动,没有消亡阶段。

因而数据生命周期模型指从数据产生,经过数据加工和发布,最终实现数据再利用的一个循环过程。

根据对数据处理行为不同阶段的分类,可以衍生出多种数据生命周期模型。

比如有学者在此基础上将数据生命周期模型分为六个阶段:

战略规划、数据收集、数据处理、数据保存、数据利用服务质量评价。

还有学者对政府数据的处理分为五个阶段:

数据的创建与采集、数据的组织与处理、数据的存储与发布、数据的发现与获取、数据的增值与评价。

数据生命周期模型作为一套较成熟的数据利用和管理分析工具,有引入数据匿名化处理合法性研究的价值。

2.1 数据生命周期模型引入

由于本文是在个人数据保护语境下进行讨论,而个人数据权利体系下存在删除这一权利,即个人数据的消亡。

因此,本文在引入政府公共数据领域的数据生命周期模型时,同时融入了生物学领域生命周期的概念,将个人数据保护领域的数据生命周期模型定义为:

在个人数据产生直至消亡的整个过程中,将与个人数据相关的数据行为按照一定标准进行阶段划分,再分阶段进行治理的一种分析模型。

据此,笔者构建了个人数据的七阶段生命周期模型(如图1所示)。

图1  患者医疗数据生命周期模型

2.2 构建匿名化处理合法性的分析模型

数据生命周期的各阶段通过患者医疗数据而紧密联系、相互关联在一起,若因前一阶段行为违法,是否必然影响后一阶段数据行为的合法性?

在财产法领域,存在票据无因性理论,即票据一旦做出,不因基础法律关系的无效而归于无效。

但票据行为无因性旨在促进票据在金融市场上自由流通,与人格尊严无涉,而患者医疗数据却与人格尊严关系甚切,故不能采取无因性理论盲目促进数据自由流通而枉顾患者隐私保护。

对此,笔者认为,对匿名化数据处理的合法性判断,应当立足于整个患者医疗数据的生命周期进行研究。

本文将以数据加工为界限,将数据生命周期分为三个部分:

事前行为(产生、收集与存储)、事中行为(数据匿名化处理行为)、事后行为(转移、使用与删除),从这三个部分对数据匿名化处理行为的合法性问题进行系统性研判(如图1所示)。

各部分与数据匿名化处理合法性之逻辑关系为:

(1)事前行为合法是数据匿名化处理行为合法性的前提条件。

经由事前行为传递而来患者医疗数据,是否为没有权利瑕疵的合法数据,直接影响了以该数据为对象进行数据匿名化处理的合法性判断。

(2)匿名化处理行为本身的合法是其合法性的核心要件。

事前行为部分旨在回答在何种条件下进行数据匿名化处理是合法的,在事前行为合法基础上,需进一步回答对患者医疗数据进行匿名化处理的行为本身的合法性标准,以此来判断其合法性。

(3)事后行为的风险管控是其合法性得以持续的必然要求。

患者医疗数据经由以上两个层面的合法运作,将匿名化数据传递至事后行为阶段。

匿名化数据存在再识别的风险,转移和使用等事后行为中应确保其数据是匿名状态下的数据,相关责任者负有防止匿名化数据被再识别的风险管控义务。

3 事前行为——数据匿名化处理合法化的前提条件

如上所述,事前行为包括数据产生、收集以及存储。

数据产生涉及对患者医疗数据的权利保护,为合法性判断的最终逻辑依归;数据收集需尊重患者医疗数据权利从而获得合法性基础;而数据存储为数据收集的必然结果。

3.1 数据产生:

患者的医疗数据权利

纵观国外个人数据保护立法的立法实践,代表如欧盟GDPR、美国《加州消费者隐私保护法案》、韩国《个人信息保护法》、英国《数据保护法案》等,均已建立起一套较为完善的个人信息权利体系。

其中,以知情访问权、同意反对权和异议更改权为核心,数据可携权和删除权(或称“被遗忘权”)作为补充选择,构建起了个人信息保护的权利大厦。

医疗数据作为个人信息的重要组成部分,且不同于其他个人信息的敏感隐私特性,患者在享有一般个人信息权利的基础上,其医疗数据应当受到更加严格的保护。

欧盟通过将其列入特殊类型数据严格保护,美国则通过专门的HIPAA隐私规则重点规制。

在我国现存法律中,初步建立起了以《民法典》《网络安全法》《人口健康信息管理办法(试行)》《国家健康医疗大数据标准、安全和服务管理办法(试行)》等法律为主体构建了个人信息保护规则与隐私权规则相结合、一般个人信息与重要个人信息相区别的个人信息保护体系,赋予了患者对个人医疗数据的知情权、同意权、隐私权等①。

知情权、同意权与隐私权等权利可作为整个数据生命周期合法运行的权利基础,是具体数据行为合法与否的基本判断标准。

3.2 数据收集行为的合法性判断

收集患者医疗数据,必须基于合法正当的理由。

以GDPR为例,若欲处理患者医疗数据,必须满足以下情形之一:

包括基于特定目的而为数据处理取得数据主体明确同意、数据处理者履行职责必要、维护核心利益必要、非营利性正当处理活动、数据已明显公开、司法执法活动必要、维护公共利益、正当医学目的、学术活动等。

统合其他国家立法以及实践,主要存在以下三类合法性基础:

其一,基于数据主体自由、自愿的书面同意;其二,数据控制者或处理者履行合法义务所必需,如医生诊断患者病情必须收集与病情相关的所有医疗数据;其三,出于维护公共利益或国家利益而进行,如为加强疫情防控而收集患者必要的医疗数据,为配合正当的司法与执法活动而调取数据等。

其中,第一类是最为普遍也最为核心的合法性基础。

根据欧盟数据保护委员会2020年修正的《同意指南》,在处理医疗数据时需取得的合法同意必须满足四项要件:

(1)确保患者充分知情。

取得患者同意需以充分知情为前提,医疗机构在收集患者个人数据时,应当事先告知患者可能收集数据的种类、收集方式、存储地点和期限、加工方式、收集使用目的、是否转移至第三方等,缺乏充分知情下作出的意思表示欠缺有效性。

(2)同意需自由作出。

任何处于权力失衡、附加额外的条件、目的捆绑或以损害相威胁等情形下作出的同意均欠缺自由要素。

在医患这一强弱关系悬殊的情形下应尤为注意,医疗机构在收集患者数据时,应当遵守目的限定原则(PurposeLimitation)和最小化收集原则(DataMinimisation),不能超出医疗诊断目的的范围滥收数据。

(3)同意需明确作出。

患者必须作出明确的同意表示,最典型的方式是患者以书面方式签署同意书。

在对重要数据进行特别保护时,要求书面同意是各国立法的普遍遵循,HIPAA隐私规则中亦是如此。

(4)拟同意事项需具体。

医疗机构必须明确同意事项的目的,多个目的需征求多次同意,明确区分同意所获取信息与其他信息。

3.3 数据存储行为的合法性判断

在数据存储阶段,由于患者医疗数据的多态性所导致的不同形式的医疗数据分散至各个系统中存储,数据的格式标准难以统一,需要对各子系统的数据进行重新整合,集中至统一的数据存储中心,才能实现医疗大数据的有效利用。

因此,医疗数据的存储应分为三个阶段:

阶段一(如图2-左),患者的原始医疗数据分门别类存储于各个子系统,此阶段合法性问题为医疗机构是否按照数据收集阶段的要求,将患者数据完整、准确、及时地存储在约定或合理的地点;阶段二(如图2-中),为便于医疗大数据利用,必须将具有体量大、多态性、冗余性、时效性和隐私性的医疗数据从子系统中实时提取出来,通过多源数据格式化、数据清洗转换以及数据脱敏等流程将医疗数据进行初步的加工整合,此阶段合法性问题是这些对数据的初步加工整合技术的使用是否按照统一技术标准流程运行,是否尽到相应的监管义务;阶段三(如图2-右),加工处理后的医疗数据再统一传送至医疗机构专门的数据存储中心,按照数据内容分门别类予以存储,为医疗大数据应用提供较高质量的数据支持,此阶段的合法性问题与阶段一类似,均需关注数据存储地点和存储方式的合法性。

图2  医疗数据存储阶段

需予以明确的是,存储阶段的数据匿名化处理与加工阶段的数据匿名化处理在适用场景上存在差异,应该区别对待。

存储阶段的数据匿名化处理行为与其他数据加工行为一道,目的在于将分散的数据进行初步加工以便存储在统一的数据中心,实质上是医疗机构内部范围内对医疗数据进行统一整合存储行为的一部分。

相对于后期的数据加工阶段,因不涉及数据的外部流转,数据被违法使用和泄露的风险更低,因而对此阶段的数据匿名化存储行为的合法性要求应有所降低,可利用假名化技术进行数据脱敏。

4 数据匿名化处理行为的合法标准

数据处理者必须对其获取的患者医疗数据进行合理的形式上审查,以确保所保有的数据来源合法正当。

对存在权利瑕疵的数据为匿名化处理,将使匿名化处理行为处于非法状态。

上一部分已对数据匿名化处理行为合法性前提条件进行了细致探讨,本部分将立足数据匿名化处理行为本身,对其合法标准展开讨论。

关于匿名化的法律定义,前已部分述及,美欧除称呼上略有不同外,对其概念核心含义的界定基本一致,结合日本《个人信息保护法》第2(9)条和中国《网络安全法》第42条等国家对匿名化的定义,可以推定,国际上对匿名化的定义方式采结果主义,即处理行为若能达到“不可再识别至具体个人”之结果,便是法律所要求的数据匿名化。

参考GDPR前言第26条对匿名化的要求,笔者认为,数据匿名化处理行为是否符合“不可再识别至具体个人”之法律标准,具体可拆解成三个要件进行判断:

其一,匿名化需达到无法直接或间接识别至特定个人之效果;其二,不可再识别的行为主体包括数据控制者和第三方;其三,数据控制者或第三方需用尽所有合理可能之再识别方法。

4.1 需达到无法直接或间接识别至特定个人之效果

4.1.1 针对直接识别:

HIPAA隐私规则之安全港模式

直接识别至特定个人指依独特的身份标识符便具有识别个人身份的高度可能性,而无须与其他数据交叉验证。

HIPAA隐私规则去识别方式之一的安全港模式,即是通过删除独特的身份识别数据来达到匿名化的目的。

它逐一列举了18类必须删除的身份识别数据:

姓名;住址(包括详细住址和邮编等);与个人相关联的所有日期元素(包括出身死亡日期、注册日期等);电话号码;传真号码;电子邮件地址;社保号码;医疗记录号码;健康计划受益号码;账户号码;驾驶证许可证号码;车辆标识符和序列号(包括车牌号);设备标识符和序列号;URLs;IP地址;生物识别符(包括指纹和声纹);全脸摄影图像和任何可比图像;以及任何其他唯一识别号、特征或代码。

为尽可能降低再识别的可能性,安全港模式还要求数据处理者在删除身份识别符后应确保其自身对去识别后的数据不可单独或与其他数据结合后识别至数据主体这一结果持确信态度,若数据处理者依自身技术能力可轻易识别至具体个人,即便删除了指定的18类数据,仍不符合法律要求。

有学者利用匈牙利建立的假名化人口医疗健康数据库,测试了HIPAA隐私规则是否能达到其所说的“公平的匿名化”标准,测试结果表明,即使在悲观情况下,1000万人中仅7人有被识别的风险。

4.1.2 针对间接识别:

专家决策模式与欧盟“三性标准”相结合

不具有直接身份标识的数据,需要与其他数据相结合才可能识别具体个人,此谓之间接识别。

通过间接方式识别至特定个人的判断,较难确定。

原因在于:

其一,据以识别的数据范围不确定,有可能通过同一数据集的各项属性值即可识别,也有可能通过多个数据集的属性值交叉认证得以识别,为防止数据控制者或第三方间接识别而试图穷尽所有相关的间接识别的数据,不具现实可行性;其二,数据控制者或获取匿名化数据第三方的背景数据和数据分析能力未知,再高明的匿名化技术,可能仅仅因为一条始料未及的关键性的背景数据,再辅以相应的数据分析能力,即可间接识别至具体个人,如美国AOL公司匿名化失败的典型案例即属此类;其三,进行匿名化风险评估时,难以将所有世界上所有去匿名化技术一一加以检验,时间成本和人力成本高昂。

因此,在判断能否通过间接方式识别至具体个人时,必须依据一个合理可行的标准,最终的结论也必须容忍和接纳合理范围内的再识别风险。

HIPAA隐私规则去识别方式之二的专家决策模式,要求专家在设计去识别方案时必须使去识别数据接收者单独或与其他数据结合以识别具体个人的风险非常小,并证明其方案是合理的。

为增强模式的可实施性,《去识别指南》为其设置了一套操作流程:

首先,专家需对数据接收者的再识别能力进行评估,以确定采用何种去识别技术的大致范围;其次,专家向数据处理者提供一套去识别技术的指导方案;然后,与数据处理者配合实施去识别技术方案并就去识别后的数据进行风险评估,若风险仍较高,需对方案进行修正;最后,风险降至非常小的范围,方案可正式实施,专家需出具报告证明方案的合理性。

《去识别指南》为专家和数据处理者提供了再识别风险评估的三项参照原则:

数据可重复(Replicability)、数据源可获取性(DataSourceAvailability)、数据可区分性(Distinguishability)。

可重复性或称与个人关联的稳定性,根据健康信息特征与个人相关联的稳定性,划分其风险等级,如患者出生日期这类基本信息相对于患者血糖水平测试数据更加稳定,风险等级更高。

数据源可获取性是指有多少外部数据源包含有患者的身份标识符数据或其他可重复性高的数据,以及访问这些数据源的难易程度。

可区分性则关注患者的数据在数据库中与其他患者数据的可区分程度,如出生年月日比只有出生年月的可区分度更高。

健康信息的可重复性、可获取性和可区分性越强,识别的风险就越大。

欧盟《匿名化意见》对匿名化处理技术提出了三个风险衡量标准:

指向性(Singlingout)、关联性(Linkability)和推断性(Inference)。

指向性关注的是数据集中能识别至特定个人的数据记录,若数据集中存在较多具有识别性的数据记录,则指向性风险较高,反之则低。

关联性是指将至少两个数据记录与同一数据主体或一组数据主体相联系的可能性。

如果攻击者能够通过两个数据记录关联到一群数据主体,但无法进一步识别该数据记录具体归属于哪一个数据主体,则该匿名化技术具有关联性风险,而不具有指向性风险。

推断性是指从一部分属性的属性值推断出另一属性的属性值的可能性。

从这三个标准出发,《匿名化意见》逐一详细评估了主要匿名化技术的再识别风险大小(如表1所示)。

主要匿名化技术均在一定程度上具有被再识别的技术风险,且不同技术在不同标准下风险大小均有差异。

在合理风险范围内,结合数据适用的具体情境,综合运用多种匿名化技术以实现不可间接识别的目的。

《去识别指南》的专家决策模式更侧重于对拟匿名化数据的再识别风险评估,而《匿名化意见》则侧重于对匿名化技术的风险评估,二者存在一定互补性。

在降低间接识别风险时,一方面可对拟匿名化处理的数据从数据可重复性、数据源可获取性、数据可区分性三方面进行风险评估;另一方面在选择匿名化技术并进行风险测试时,可从指向性、关联性和推断性三方面对拟采用

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 医药卫生 > 基础医学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1