差分隐私（一）—基本概念与特性

时间：2023-11-30 本站点击：1

众所周知，深度学习模型的特点就是：数据越多，模型性能越强，因此，为了能够获得一个较好的工业模型，公司在训练模型时通常会尽可能多的投入手中收集的数据，从而保证模型的性能。而这些数据通常收集于用户的行为，比如用户在网上购物的各种点击浏览历史，可能被公司用于训练一个推荐系统模型。

随着人们隐私意识的提高，自己的行为数据被不受控制的使用这种现象，引发了人们对自身数据隐私的担忧。举个例子，个人的医疗记录很明显属于个人的隐私信息，所有者自然希望他们的医疗记录受到严格的隐私保护。但是，如果医院能够将足够多的医疗数据拿来训练出更好的医疗诊断模型，那么就能够为病人带来更加准确的医疗方案。这里就产生了一个trade-off：我们如何既能将足够多的数据用于训练机器学习模型以增强其性能，又能够保证用户的隐私权不受侵害？

本文探讨了机器学习中的隐私保护问题。在第一部分中，我们讨论了数据分析中隐私的定义，并讲解差分隐私的基础知识。第二部分则讲解如何训练出一个具有差分隐私的机器学习模型。

早期隐私保护技术

隐私这个概念常常被用到，但是，却很少有人能够给出数据隐私的具体定义。我们常常说隐私，但又难以准确的界定究竟什么是隐私。我们必须首先在数据分析的背景下定义隐私的实际含义。已有的工作并没能够找到一个隐私的定义，使其既能符合用户的要求又具有实用性。下边介绍了一些早期的隐私保护概念。

匿名化技术和链接攻击

对于一个数据集最直接的方法保护隐私的方法是匿名化，即删除数据集中的可识别信息。例如，可以从医疗记录中删除患者的姓名从而使得别人无法将医疗记录匹配到具体的人上。但是，匿名化并不是一种有效的隐私保护手段，因为即使删除了一些敏感信息，也可以通过剩余信息来唯一标识某一用户。就好像数据库中有一张表，表里既有主键又有外键，单纯的删除主键而保留外键仍然可以使得攻击者识别出每条数据对应的用户信息。例如，考虑到姓名、性别、邮政编码、年龄、种族和身高，如果仅仅删除姓名却保留其他的数据，即使在非常大的数据库中，也可以唯一地识别某人。

由此也引出了数据链接攻击的概念。数据链接攻击即指：通过一个已有的未匿名数据集，与被匿名的数据集进行链接，从而识别出匿名数据集所隐藏的信息。就好像将一张表的主键删除而后保留外键，攻击者可以将外键所在的表与该表进行连接，从而恢复出原本表的信息。

数据链接攻击已有成功的案例，这在 1997 年就发生在马萨诸塞州州长威廉·韦尔德身上。一家保险集团删除了患者姓名和地址等明显的个人信息后公布了健康记录，有人通过将公开的匿名记录与公众选民名册进行交叉连接，实现了对健康记录信息的去匿名化，找到了哪条记录属于韦尔德州长。这是数据链接攻击的一个示例，其中与其他信息源的连接可以对数据集进行去匿名化。

k-匿名技术

防止链接攻击的一种方法是k-匿名。k-匿名是指：对于数据集中的任何一条记录，我们节选出其中任何一段特征，始终有k-1条记录，其在该段特征上的值与该记录相同，也就是指对于数据集中任何人的记录，至少有 k-1 个其他记录无法与之区分，则称该数据集是k-匿名的。因此，如果一个数据集是 k 匿名的，那么链接攻击所能做的就是识别出 k 条属于被攻击对象的信息记录。

不幸的是，k-匿名本身的存储代价很高，一般需要增加大量数据以实现数据集的k匿名。k-匿名适合非常大的数据集，每条记录只有少量的字段（特征）。直观地说，字段（特征）越多，每个字段的可能取值越多，记录的唯一性就越高，就越难确保有 k 个等价记录。

集中数据和差分攻击

还有一种解决方案是不发布数据。我们假设有一个可信第三方，其一定不会滥用我们的数据。因此，我们会放心的将明文数据传输给受信任方。而数据分析者通过向可信第三方提出关于数据的问题来获取信息。由此出现了一个问题。我们如何确保受信任方为这些查询回答的结果不会泄露私人信息呢？一种方式是只允许简单的查询，例如计数。此外，只有在查询集大小最小时才能返回答案。

不幸的是，这种方案容易受到差分攻击。举个例子，数据分析者发出了两个查询：1. 计算吸烟患者的所有记录，2. 计算姓名不是张三的吸烟患者的数量。通过这两个查询结果之差，可以确定张三是否吸烟。

信息恢复的基本法则

在上一节中，我们发现简单的数据隐私方法容易受到攻击。那么究竟有没有切实可行的保护隐私的手段呢？事实上，早期的对隐私保护的定义本身就有缺陷，在早期，隐私保护指的是确保在发布数据时无法了解个人的任何信息。这个定义要求观察发布数据的人对个人记录的了解与观察前相比没有区别。但是，如果你不能从发布的数据中学到任何新东西，那么发布的数据中一定没有任何可用的信息。

在通过数据分析理解隐私时，出现了一个关键问题；数据分析需要从数据中提取出可用信息，如果数据分析者无法从发布的数据中学习，就不可能进行有用的数据分析。但是，对于任何不完全破坏信息的查询机制，获得足够查询访问权限的攻击者最终总可以重建数据集。这就是“信息恢复的基本法则”。因此，如果希望从数据集中提取有用的信息，数据的隐私总是会有风险的。

从这个隐私保护的角度出发，现在隐私保护技术的目标是量化和限制实际丢失了多少隐私。由此，出现了差分隐私技术。

差分隐私

假设有一个人正在回答其有没有艾滋病这个问题。针对于单个用户的隐私概念是：保证他们的数据被收集，在未来为他们带来的的影响可以忽略不计。正如我们已经看到的，绝对隐私本质上是不可能的，因此我们通过概率的角度出发，保证隐私泄露可能性很小。这也正是差分隐私 (DP) 所提供的。

随机响应

差分隐私建立在随机响应方法的基础上。随机响应的关键思想是引入一种提供合理否认的随机化机制。考虑一项调查，询问人们是否在逃过税。对该调查结果的查询可能会泄露有关单个人的隐私信息。但是，我们可以通过掷硬币为回答引入随机性：在回答者回答之前掷硬币，如果结果是“正面”，则记录随机答案而不是真实答案，如果是反面，则记录真正的回答。最后可以形成一个无偏估计，可以使用调查结果来估计在税收上作弊的人的比例。然而，每个人都有合理的可否认性：记录的响应可能是也可能不是真正的回答，因此个人隐私受到保护。

在此示例中，有一个参数是被调查者提供真实响应的概率。如果真实响应的概率较大，那么用户的隐私保护程度就会减少。如果真实响应的概率较小，那么用户受到的隐私保护的程度较大。此外，无论概率多大，如果对一个人进行多次调查，那么即使他们的答案每次都可能是随机的，其所受到的隐私保护都会减少。差分隐私将提供给个人的隐私保护程度量化为与随机概率和调查次数等因素相关的函数。

差分隐私的传统定义

考虑两个数据库D和D'，这两个数据库之间只有一条记录不同。有一个随机响应机制M[]，其输入参数是一个数据库，输出一个结果。如果说对于任意一对D和D'，M[D]和M[D']所得到的结果都是难以区分的，我们就说随即机制M[]是差分隐私的。

将该定义进行形式化：一个机制M[]是ε-差分隐私的，如果说对于任意一个子集S⊂Range[M]与数据库D和D'，有：

$$ \operatorname{Pr}(\mathrm{M}[\mathcal{D}] \in \mathcal{S}) \leq \exp [\epsilon] \operatorname{Pr}\left(\mathrm{M}\left[\mathcal{D}^{\prime}\right] \in \mathcal{S}\right) $$

$\epsilon$控制了随机机制在两个相邻数据库上的的输出的差异程度，并捕获了在数据库上运行随机机制时丢失了多少隐私。 $\epsilon$越大，隐私保护的程度越差，$\epsilon$越小，隐私保护的程度越好。

差分隐私与散度的关系

散度用于度量两个概率分布之间的差异程度，散度越大，两个分布差异越大，散度为0，说明两个分布相同。

由于随机机制M[]的输出符合某一概率分布，因此M[]是ε-差分隐私当且仅当： $$ \operatorname{div}\left[\mathrm{M}[\mathcal{D}] | \mathrm{M}\left[\mathcal{D}^{\prime}\right]\right] \leq \epsilon $$ 其中，D和D'为相邻数据库，即两个数据库仅有一条数据不同。div[]代表无穷阶的Renyi散度。换句话说，ε 量化了当随机机制M[]应用于两个相邻数据集时，结果分布之间的差异可以有多大（如图1所示）。

差分隐私的特性

前面的讨论假设的场景是：单一的机制M[]只运行一次。但是，之前说过运行多个查询或使用外部信息可能会导致隐私的泄露。那么差分隐私如何对于多个查询以及使用外部信息的场景提供隐私保护？通过差分私有机制的几个特性，我们可以将原本的单个机制单次运行的场景推广到更复杂的场景

后处理性：差分隐私机制不受后处理的影响，任何差分隐私的随机响应机制和任意函数进行组合，得到的新函数仍然是差分隐私的。形式化：如果一个机制M[]是ε-DP的，g()是一个任意函数，则g(M[])仍然是ε-DP的。因此，差分隐私可以抵御数据链接攻击

可组合性：差分私有机制在组合下是封闭的。如果我们在同一数据集上应用多种不同的机制（或多次使用相同的机制），这些机制整体上仍然是差分隐私的，但是ε值会产生变化。具体来说，假设我们将k个机制进行组合，每个机制都符合ε-DP的，则最后得到的整体的机制至少是 kε-DP 的。由此，DP可以抵挡差分攻击。

后处理性和可组合性允许我们将DP机制视为通用组件。任何大型差分隐私机制都可以组合在一起，同时仍然具有差分隐私性质。但是，组合定理也是存在极限的。虽然组合可以保护隐私，但随着组合中的DP机制的增加， ε 的值会增加，隐私保护的性能会随着DP机制数量的增加而下降。如果组合的DP机制过多，ε的值将变得过大，使得随机机制在相邻数据库上产生的差异极度明显，无法产生隐私保护的效果。

原文：https://juejin.cn/post/7100517170450268174

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：/AI/3435.html