优秀硕士论文基于匿名机制的数据发布中隐私泄露控制技术讲解Word格式文档下载.docx-资源下载

优秀硕士论文基于匿名机制的数据发布中隐私泄露控制技术讲解Word格式文档下载.docx

1、心脏病t3男734532t444734555t5t645t7734561禽流感t842734533t943734553表1-2选民登记表姓名爱丽丝贝蒂约翰比尔艾迪法兰克凯恩杰克珍妮1.2国内外研究进展分析数据发布要求匿名数据既具有安全性又具有可用性，然而两者是相互矛盾的。因此，数据匿名化研究的重点是设计高效的匿名保护模型和匿名算法，以使得匿名数据在保证安全性的同时，最大限度地提供可用性。目前，国内外匿名化技术的研究已经取得了许多的成果。1.2.1匿名保护模型1.2.1.1 k-匿名模型（k-anonymity）定义1.11 k-匿名假设TA1,A2,An为一个数据集，QIT为与之相关的准标识

2、符。当且仅当数据集T中每个记录的准标识符属性值在数据集中至少出现k次，则该数据集满足k-匿名。定义1.21 等价类一个等价类即数据集TA1,A2,An中一组具有相同准标识符属性值的记录。针对数据发布中的链接攻击，文献1,2提出了k-匿名技术。文献3提出实现k-匿名的泛化和隐匿方法，泛化是指在数据集中用抽象的属性值来代替原来具体的属性值，隐匿是指隐匿是指直接删除数据集中某些属性值或记录。k-匿名通过泛化和隐匿使得等价类中每个记录具有相同的准标识符属性值，攻击者无法将个体与某个记录对应起来，从而保护个体身份的泄露。例如，表1-3是表1-1的一个满足3-匿名模型的匿名化表，其中，匿名参数=，准标

3、识符为属性组（年龄，性别，邮编），敏感属性为疾病。表1-3中生成了3个等价类t1，t2，t7，t4，t5，t6，t3，t8，t9。若在网站上用表1-3代替表1.的医疗信息表，那么攻击者即使知道表1-2选民登记表中某个记录的信息，也无法推断出该记录与表1-3中某一特定记录相关联。例如假设攻击者从1-2选民登记表中获知法兰克的信息，与表1-3链接时，虽然知道法兰克在t4，t5，t6等价类中，却无法将法兰克与其中的某个记录相对应起来，从而避免法兰克隐私的泄露。表1-3 -匿名化表140-41*7345*44-4541-43但是， k-匿名模型存在同质性攻击和背景知识攻击的问题4。k -匿名模型由于

4、忽略了敏感属性值的多样性，可能造成个体敏感属性的隐私泄露，即同质性攻击。例如，假设表1-4是表1-1的另一个满足3-匿名模型的匿名化表，表1-4中生成了3个等价类t1，t2，t3，t4，t5，t6，t7，t8，t9。如果攻击者从1-2选民登记表中获知杰克的信息，与表1-4链接起来时，虽然无法确定杰克与表1-4中具体的某个记录相对应，但通过准标识符属性值可以知道杰克在表1-4的t7，t8，t9等价类中，由于该等价类的敏感属性值均为禽流感，攻击者容易知道杰克患有禽流感，杰克的隐私被泄露。同时，k -匿名还可能遭遇攻击者利用预先知道的背景知识来进行攻击。此外，k -匿名模型由于通过泛化准标识符属性达

5、到匿名的目的也导致大量原始信息的损失，降低了匿名数据的可用性。表1-4 -匿名化表21.2.1.2 l-多样性模型（l-diversity）文献4提出了l-多样性模型（l-diversity）以弥补k-匿名模型的不足。定义1.34 l-多样性原则一个等价类如果对于敏感属性S至少包含l个不同的敏感属性值，那么该等价类是l-多样性的。如果数据集T中的每个等价类是l-多样性的，则称该数据集满足l-多样性。该模型除了要求满足k-匿名之外，还要求每个等价类的敏感属性值具有多样性以防止敏感属性的隐私泄露。例如，表1-5是表1-1的一个满足3-多样性模型的匿名化表，其中，l，Q（年龄，性别，邮编）。表1-

6、5中生成了3个等价类t1，t2，t7，t4，t5，t9，t3，t6，t8。每个等价类中的记录在（年龄，性别，邮编）上具有相同的属性值，并且在敏感属性疾病上具有3个不同值。因而，表1-5中的数据能够防止链接攻击所导致的敏感属性隐私泄露。虽然l-多样性模型可以提供比k-匿名模型更强的隐私保护，但是，l-多样性模型依然存在不足之处，l-多样性模型同样采用泛化和隐匿技术对原始数据进行匿名处理，因而也存在信息损失的情况。表1-5 3-多样性表7345*禽流感 43-4473455*41-4573453*1.2.1.3 Anatomy匿名模型文献5提出了独特的匿名方法Anatomy，该方法首先将数据集按

7、l-多样性匿名模型划分，将划分结果分成准标识符属性表和敏感属性表发布，两张数据表之间通过Group-ID关联。Anatomy匿名模型对等价类的准标识符属性不作泛化和隐匿处理，直接将准标识符属性数据发布，因而保留了大量原始数据的信息，大大提高了匿名数据的可用性。同时，Anatomy将数据分成两张表发布，使得攻击者无法将个体的准标识符属性和敏感属性一一对应起来，提高了数据的安全性。由于Anatomy匿名模型是在l-多样性模型的基础上提出的，l-多样性模型上存在的一些不足，在Anatomy匿名模型中也依然存在。例如，表1-6是表1-1的一个满足Anatomy模型的匿名化结果，假设攻击者知道某个个体在

8、Group-ID为1的等价类中。虽然攻击者可以从准标识符属性表获知该个体的年龄，性别，邮编具体值，但他无法从敏感属性表中准确获得敏感属性疾病的值，由于Group-ID为1的疾病值的个数为3，因此攻击者只能以1/3的几率进行猜测。数据发布中，研究出提供更强保护能力的匿名模型依然是匿名保护中的主要工作，因此，研究者们在k-匿名模型和l-多样性模型的基础上，又提出了一些新的匿名模型6-8。表1-6 Anatomy表（a）准标识符属性表Group-ID123（b）敏感属性表统计1.2.2 匿名算法采用匿名技术由原始数据生成最优匿名数据是一个NP难问题9,10，因此，设计出高效的近似最优算法是匿名保

9、护中的重要工作。目前数据发布中采用的匿名技术主要有：泛化和隐匿、聚类以及交换等技术。采用泛化和隐匿技术的匿名算法主要有： Datafly算法11、MinGen最小泛化算法3、Incognito算法12、GA（Genetic Algorithm）算法13、自底向上的泛化方法14、自顶向下的泛化方法15、基于多维空间划分的k-匿名方法16。国内研究者也在文献17-20中对泛化和隐匿技术进行了研究。泛化和隐匿技术将等价类中不同的准标识符属性值泛化为相同值以达到隐私保护的目的，造成了原始数据大量信息的损失。同时，基于泛化和隐匿技术的匿名算法采用基于泛化层次结构的策略会引起不必要的信息损失。为了解决泛化

10、和隐匿技术存在的不足，在数据的匿名化中引入聚类技术。基于聚类的匿名化方法的主要思想是：首先将数据划分为多个聚类，然后分别泛化每个聚类的准标识符属性以达到匿名化。文献21提出模糊c-均值算法。文献22提出基于k-modes的算法。文献23,24提出了基于k-means聚类算法的k-匿名方法。文献25提出MDAV k-匿名算法。在MDAV算法的基础上，文献26提出了V-MDAV（Variable-MDAV）算法。文献27,28 提出了带权重的聚类方法。文献29-32 提出了基于聚类的k-匿名算法。基于聚类的匿名算法不依赖于泛化层次结构，因此生成的匿名数据集具有更高可用性。数据交换是将数据集中某些属

11、性的值进行互换以防止隐私泄露 33-35。文献5提出了一种不基于泛化和隐匿技术的交换方法Anatomy。文献36-38也提出了基于交换的隐私数据发布算法。采用交换技术的匿名化算法通过交换增加了隐私数据的不确定性，从而保护隐私数据的安全。并且交换技术直接发布准标识符属性，保留了原始数据的大量信息，极大地提高了匿名数据聚集查询的准确性。1.2.3匿名质量评估匿名化原始数据必然会引起信息损失，需要找到适合的评估机制来计算匿名后的信息损失以衡量匿名算法和匿名数据集的优劣。以下是匿名质量评估中常用的信息损失评估机制：定义1.131, 32 等价类信息损失IL（e）。假设等价类er1,rk由准标识符由数值

12、属性（N1,Nm）和分类属性（C1,Cn）构成，则等价类信息损失IL（e）为：公式中|e|是e中记录个数，|Ni|表示数值属性的范围，和分别是e中关于属性Ni的最大最小值。|Cj| 表示分类属性的不同属性值个数，表示e中关于属性Cj的不同属性值个数。定义1.232 总体信息损失Total_IL。若e1,em是匿名数据集T中所有等价类的集合，那么T的总体信息损失为：。总体信息损失能够反映匿名数据集相对原始数据集所产生的信息损失。此外，文献39中定义的可区分度量机制也可用来衡量匿名化质量。定义1.339 可区分度量DM （Discernability Metric）定义为，其中|E|表示等价类E中

13、的记录个数，DM的值即为数据集中每一个等价类大小的平方的和。可区分度量的意义在于：等价类越大可区分度就越小，意味着一个记录在大的等价类中难以区分。定义1.45 聚集查询平均相对错误率。一个查询的相对错误率为|act est|/act， act是对原始数据进行查询获得的实际结果，est是对匿名数据进行查询获得的推测结果。每个查询相对错误率的和的平均值即为聚集查询平均相对错误率。1.3论文的组织本文共分为四章，各章节内容组织如下：第一章为引言，阐述研究数据发布中匿名化与敏感信息保护技术的意义，分析与评述国内外有关数据发布中匿名模型、匿名化与敏感信息保护技术方面的研究进展，给出本文章节的组织结构。在

14、第二章中，将着重讨论基于聚类的敏感属性l-多样性匿名化算法的设计与实现。首先，分析提出基于聚类的敏感属性l-多样性匿名化算法的动机，然后根据不同的聚类种子记录的选择方式以及聚类前生成不同的聚类记录候选集，提出了2个满足l-多样性模型的聚类算法，并通过对真实数据的实验来评估这两个算法的性能。第三章将讨论基于l-多样性的多敏感属性匿名化技术问题。首先分析多个敏感属性的数据发布存在的隐私泄露风险，从而提出了一个满足l-多样性模型的多敏感属性匿名化算法，并通过实验验证这个算法的有效性。第四章总结本文的工作成果，并对下一步的研究方向做出展望。第二章基于聚类的匿名化算法2.1问题分析本章讨论基于聚类的匿

15、名化。以往的匿名化研究工作中，大多采用泛化和隐匿技术实现数据的匿名化。但是基于泛化和隐匿的匿名化算法由于受到泛化层次结构的限制，导致一些不必要的信息损失。为了降低信息损失,一些学者将聚类方法应用到数据的匿名化上。事实表明，基于聚类的方法能够生成高质量的匿名数据集。但是，基于聚类的匿名化算法中，大多是基于k-匿名模型的，没有考虑敏感属性值的多样性，存在着隐私泄露的风险。因此，本章研究提出2个满足l-多样性模型的聚类算法LCA-FC（l-diversity clustering algorithm, select furthest seed and compare with centroid）和L

16、CA-RC （l-diversity clustering algorithm, randomly select seed and compare with centroid），以避免敏感属性的隐私泄露。2.2基于聚类的敏感属性l-多样性匿名化算法.在基于聚类的匿名化算法中，聚类种子记录的选择和寻找信息损失最小记录的方式是非常重要的，将会影响到聚类的质量。选择聚类种子记录时，可以随机选择数据集的一个记录，也可以选择最远的记录作为聚类种子记录。寻找信息损失最小记录时，可以计算整个聚类和每个候选记录的信息损失来找到信息损失最小记录，也可以计算聚类代表记录和每个候选记录的信息损失来找到信息损失最小记

17、录。而选择聚类代表记录时，可以选择聚类质心，也可以随机选择聚类的一个记录作为聚类代表记录。选择不同的方式，将会产生不同的聚类效果。大多数已有的基于聚类的k-匿名算法没有满足敏感属性值l-多样性的要求，存在着隐私泄露的风险。因此，根据不同的聚类种子记录的选择方式以及聚类时生成不同的聚类记录候选集，本文提出了基于聚类的敏感属性l-多样性匿名化算法LCA-FC和LCA-RC。它们的主要思想是：给定一个n个记录的数据集T和l-多样性参数l，首先计算数据集T不同敏感属性值个数，如果该值大于等于l，选择一个记录作为种子开始建立一个聚类，然后每次从聚类记录候选集中选择一个与聚类信息损失最小的记录加入该聚类，

18、直到聚类中记录个数为l时结束，从而生成一个聚类（即等价类）。然后，满足条件的情况下选择一个记录作为新的种子记录，重复相同的过程建立下一个聚类。最后，对于剩余的记录，分别计算它们与已经生成的每个聚类之间的信息损失，然后加入到信息损失最小的聚类中。LCA-FC算法在数据集中选择距离上次种子记录最远的记录作为聚类种子记录，LCA-RC算法则在数据集中随机选择一个记录作为聚类种子记录，两者均通过计算聚类质心和聚类记录候选集的每个记录的信息损失来找到信息损失最小记录，但聚类记录候选集不同。本文算法在计算聚类质心时，各个数值型属性值采用聚类的各个数值型属性平均值，而各个分类属性值则采用聚类的各个分类属性中

19、出现频率最高的值。算法处理的数据包括数值属性和分类属性，信息损失机制必须既适用于数值型数据又适用于分类型数据的信息损失计算。因此聚类所产生的信息损失采用1.2.3小节定义的信息损失机制来衡量。下面分别描述基于聚类的敏感属性l-多样性匿名化算法LCA-FC和LCA-RC：算法2.1 LCA-FC算法输入：原始数据集T和l-多样性模型参数l；输出：符合l-多样性模型要求的匿名数据集tableBeginStep1: 计算数据集T不同敏感属性值个数；if （T中不同敏感属性值个数=l） do聚类C=r;聚类质心centroid=r;数据集T=Tr;聚类记录候选集LT=从数据集T中选择与种子记录敏感属

20、性不相同的记录；while （|C|l） domin=;for （i=1, 候选集LT记录个数） dorecord=LT中第i个记录；if （record的敏感属性值与聚类C中记录的敏感属性值相同） continue;il= record 到聚类C质心的信息损失IL recordcentroid;if（il=2*l-1） then continue;il=记录r与聚类C质心信息损失IL rcentroid;if （ilminc=i;信息损失最小聚类minc = r信息损失最小聚类minc;Step4: 将匿名数据集table中的每个聚类的所有记录在准标识符上的属性值用该聚类代表记录准标识符上的属性值代替，完成匿名化，得到最后输出的匿名数据集table。End算法2.2 LCA-RC算法计算数据集T不同敏感属性值个数，种子记录候选集LS=从数据集T中选择敏感属性值相同且数目最多的所有记录，聚类记录候选集LT= 数据集T-种子记录候选集LS-敏感属性值相同且数目最少的所有记录；l） then r=种子记录候选集LS中随机选取一个记录;数据集T=T-r;for （i=1, 聚类记录候选集LT记录个数） doil= record 与聚类C质心的信息损失IL recordcentroid;重新计算T中不同敏感属性值个数，种子记录候选集LS，聚类记录候选集LT；r=距离记录r最远的记录;E

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？