Differential Privacy

差分隐私
1. informal examples
定义
Basic Mechanism: Noise Addition
DP 的性质
1. Composition
2. Amplification by Subsampling
Exponential Mechanisms

差分隐私

informal examples

如果算法不具有 privacy-preserving, 可能会有下述情况出现:

adversary 可以通过算法的输出重构得到用户敏感的数据集
adversary 可以判断某一个用户是否在数据集中

一个例子是 adversary 可以通过数据库的查询语句重现整个数据集, 由下面的缓解方式:

-Anonymity: 如果 query 涉及到少于人则算法拒绝给出结果
Noise Addition: 给查询结果添加 noise, 这是差分隐私使用的一种方法

定义

设是模型. -DP 的定义是, 对每一对 neighboring datasets 以及每一个输出的集合, 都有的定义是是增加或减少一个数据得到的.

的定义是是中的一个数据更改得到的.

这个定义的 intuition 是一个数据的改变不会导致输出的分布大幅度改变.

-DP 等价于 -DP.

Privacy Loss: 对于 , 输出的 privacy loss 是定理 1 (Pure-DP Condition) 是 -DP 当且仅当对所有 , 都有 .

对于连续的随机变量, 可以使用密度函数定义

Basic Mechanism: Noise Addition

通过一个 Analyzer 得到 , 现在要在上加上一个随机噪声.

加噪的直觉是噪声需要足够大以隐藏用户的贡献. 噪声的选取取决于

的敏感程度

Discrete Laplace Mechanism

假设 , 定义的敏感度 .

Discrete Laplace Distribution 的定义是对每一个整数 , . 那么 Discrete Laplace Mechanism 中 random noise 为 . 比如若 , 那么输出是 , 更具体地, 是:

w.p.
3 w.p.
4 w.p.

等等.

定理 2 假定 , 则 Discrete Laplace Mechanism 是 -DP.

定理 3 Discrete Laplace Mechanism 有 .

.

.

定理 3 说明误差与数据集大小无关.

的敏感度可推广定义为 -sensitivity . random noise 可以写为 , 其中表示噪声项关于坐标独立.

定理 4 假定 , 则 Discrete Laplace Mechanism 是 -DP.

Laplace Mechanism

连续版本 .

定理 5 假定 , 则 Laplace Mechanism 是 -DP.

Gaussian Mechanism

, 其中 .

定理 6 假定且 , 则 Gaussian Mechanism 是 -DP.

定义是的分布, 其中 . 则 approximation-DP Condition 是在说是 -DP, 如果对所有 , 成立, 其中 .

这和 Pure-DP condition 的区别在于, Pure-DP Condition 是充要条件, 而 approximation-DP Condition 只是充分条件.

定理 7 random noise 是且 , 假定且 , 则 Gaussian Mechanism 是 -DP.

DP 的性质

定理 8 如果是 -DP 且是一个任意的函数, 则仍然是 -DP.

定理 8 是在说 DP 具有 Post-Processing 的性质, 即 “Result of DP algorithm can be used in arbitrary manner and it remains DP.”

Composition

定理 9 (Basic Composition Theorem) 一个数据集通过个 DP 算法分别为 -DP, , -DP 得到的个输出组合起来得到的是 -DP 算法 .

Proof 考虑验证即可. 以及上式成立的原因是是相互独立的算法, 它们之间互不影响.

推论: 是的卷积.

Approx-DP Condition: 是 -DP 当且仅当对任意 , , 其中 .

Advanced Composition Theorem: 所有的输出组合是 -DP, 其中 .

Proof Sketch:

Recall that PLD of M is convolution of PLDs of

For pure-DP:

Each PLD of is bounded in

Can be shown to have mean at most

Apply concentration inequality to the sum

PLD of exceeds with less than probability

For approx-DP:

(Not tight) Truncate the PLD to be at most, say,

(Tight) Use a characterization of approx-DP in terms of pure-DP

composition 可以进行 adaptive setting, 即将第个输出用在第个算法中, Basic Composition Theorem 对于 adaptive setting 仍然适用.

Amplification by Subsampling

subsampling 会使算法更具有隐私性.

步骤: 从一个大小为的数据集中随机采样个数据, 然后用 substitution DP -DP 得到输出. $随机从个样本中采样出个$ Amplification-by-Subsampling Theorem: 上面算法的输出组合之后是 -DP, 其中 , , 且 .

Proof. 我们在这里只证明的情形.

设是的大小为的随机子集. 考虑任意 , , 不妨设的第个样本不同, 那么只需要验证注意到 , 于是只需要证明对于采样方式 , 考虑到仅有最后一个元素不同, 因此它等价于下述采样方式:

选择
随机采样 , 满足 , , 其中 .
将作为最终采样出的结果输出

那么就有成立. 考虑到对而言, 采样时服从完全相同的分布, 那么只需要考虑 , 即只需要证明对任意都成立即可.

定义 , 并可以注意到由于是 -DP, 则对任意都成立, 则那么

$以的概率对每个样本采样$ Amplification-by-Subsampling Theorem: 上面算法的输出组合之后是 -DP, 其中 , .

Proof. 这个证明就是类似的, 考虑等价的采样方法, 根据构造出的几个数据集间的关系进行放缩即可.

Exponential Mechanisms

解决 Selection Problem:

输入为 candidate set, 每一个以及数据集有一个分数
输出 with approx max score

且表示敏感性.

EM: -DP 算法使以的概率成立.

指数机制是: 以的概率输出 , 其中 , 且 .

定理: 指数机制是 -DP.

2024-07-15 该篇文章被 Baoduo Xu 归为分类: Seminars

以上