差分隐私总览--The Overview of Differential Privacy

逃离我推掉我的手 2023-07-25 11:19 96阅读 0赞

1.安全计算. 1

1.1 基于噪声的方法. 1

1.2 非噪声方法. 2

1.3 K-匿名化算法. 2

  1. 差分隐私. 3

1.1 定义. 3

2.2 噪声机制. 6

2.2.1 基础知识介绍. 6

2.2.2 三种分布. 7

2.2.3 Laplace mechanism 8

2.2.4 Gaussian mechanism 9

2.2.5 Exponential Mechanism 12

2.2.6 random response 13

2.3 交互式数据发布. 14

2.3.1 场景差分隐私. 15

2.4 非交互式数据发布. 16

#

1.安全计算

实现安全计算的方法: 一类是基于噪音的,另一类不是基于噪音的。

1.1 基于噪声的方法

基于噪音的安全计算方法,最主要代表是目前很火的差分隐私(differential privacy)。这类方法的思想是,对计算过程用噪音干扰,让原始数据淹没在噪音中,使别有用心者无法从得到的结果反推原始数据。

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0JpbGx5MTkwMA_size_16_color_FFFFFF_t_70

这种方法的优点是效率高(毕竟只需要生成服从特定分布的随机数即可),缺点是最后得到的结果不够准确,而且在复杂的计算任务中结果会和无噪音的结果相差很大导致结果无法使用。

1.2 非噪声方法

非噪音方法一般是通过密码学方法将数据编码或加密。

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0JpbGx5MTkwMA_size_16_color_FFFFFF_t_70 1

1.3 K-匿名化算法

To avoid linkage attack

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0JpbGx5MTkwMA_size_16_color_FFFFFF_t_70 2

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0JpbGx5MTkwMA_size_16_color_FFFFFF_t_70 3

2. 差分隐私

A privacy mechanism must be able to protect individual’s privacy from attackers who may possess background knowledge.

1.1 定义

20200414175331972.png

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0JpbGx5MTkwMA_size_16_color_FFFFFF_t_70 4

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0JpbGx5MTkwMA_size_16_color_FFFFFF_t_70 5

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0JpbGx5MTkwMA_size_16_color_FFFFFF_t_70 6

敏感度(sensitivity):

差分隐私保护可以通过在查询函数的返回值中加入噪声来实现,但是噪声的大小同样会影响数据的安全性和可用性。通常使用敏感性作为噪声量大小的参数,表示删除数据集中某一记录对查询结果造成的影响。敏感度分为全局敏感度和局部敏感度,通常情况下采用全局敏感度会加入过大的噪音,使数据失真,但若使用局部敏感度,在一定程度上就会泄露数据分布信息,这个时候就有了平滑敏感度

隐私保护预算

从差分隐私保护的定义可知,隐私保护预算ε用于控制算法M在邻近数据集上获得相同输出的概率比值,反映了算法M所的隐私保护水平,ε越小,隐私保护水平越高。在极端情况下,当ε取值为0时,即表示算法M针对D与D’的输出的概率分布完全相同,由于D与D’为邻近数据集,根据数学归纳法可以很显然地得出结论,即当ε=0时,算法M的输出结果不能反映任何关于数据集的有用的信息。因此,从另一方面,ε的取值同时也反映了数据的可用性,在相同情况下,ε越小,数据可用性越低。

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0JpbGx5MTkwMA_size_16_color_FFFFFF_t_70 7

2.2 噪声机制

2.2.1 基础知识介绍

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0JpbGx5MTkwMA_size_16_color_FFFFFF_t_70 8

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0JpbGx5MTkwMA_size_16_color_FFFFFF_t_70 9

2.2.2 三种分布

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0JpbGx5MTkwMA_size_16_color_FFFFFF_t_70 10

2.2.3 Laplace Mechanism

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0JpbGx5MTkwMA_size_16_color_FFFFFF_t_70 11

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0JpbGx5MTkwMA_size_16_color_FFFFFF_t_70 12

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0JpbGx5MTkwMA_size_16_color_FFFFFF_t_70 13

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0JpbGx5MTkwMA_size_16_color_FFFFFF_t_70 14

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0JpbGx5MTkwMA_size_16_color_FFFFFF_t_70 15

2.2.4 Gaussian mechanism

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0JpbGx5MTkwMA_size_16_color_FFFFFF_t_70 14

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0JpbGx5MTkwMA_size_16_color_FFFFFF_t_70 16

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0JpbGx5MTkwMA_size_16_color_FFFFFF_t_70 17

问题转化为

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0JpbGx5MTkwMA_size_16_color_FFFFFF_t_70 18

2020041417533238.png

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0JpbGx5MTkwMA_size_16_color_FFFFFF_t_70 19

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0JpbGx5MTkwMA_size_16_color_FFFFFF_t_70 20

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0JpbGx5MTkwMA_size_16_color_FFFFFF_t_70 21

2.2.5 Exponential Mechanism

For functions that do not return a real number:“what is the most common nationality in this room”: Chinese/Indian/American…

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0JpbGx5MTkwMA_size_16_color_FFFFFF_t_70 22

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0JpbGx5MTkwMA_size_16_color_FFFFFF_t_70 23

第一项

20200414175331481.png

第二项

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0JpbGx5MTkwMA_size_16_color_FFFFFF_t_70 24

2.2.6 random response

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0JpbGx5MTkwMA_size_16_color_FFFFFF_t_70 25

2.2.7**可用性评估**

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0JpbGx5MTkwMA_size_16_color_FFFFFF_t_70 26

2.3 交互式数据发布

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0JpbGx5MTkwMA_size_16_color_FFFFFF_t_70 27

2020041417533287.png

2.3.1 场景差分隐私

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0JpbGx5MTkwMA_size_16_color_FFFFFF_t_70 28

20200414175331979.png

20200414175331878.png

2.4 非交互式数据发布

20200414175331950.png

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0JpbGx5MTkwMA_size_16_color_FFFFFF_t_70 29

20200414175332166.png

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0JpbGx5MTkwMA_size_16_color_FFFFFF_t_70 30

更多深入学习差分隐私在我的github:https://github.com/Billy1900/Awesome-Differential-Privacy

发表评论

表情:
评论列表 (有 0 条评论,96人围观)

还没有评论,来说两句吧...

相关阅读

    相关 隐私保护

    差分隐私(Differential Privacy)是密码学中的一种手段,旨在提供一种当从统计数据库查询时,最大化数据查询的准确性,同时最大限度减少识别其记录的机会。简单地说,

    相关 differential privacy 隐私入门 (一)

    对差分隐私比较感兴趣,看了几篇文章,了解一下大概的思想。现在决定重新看一下,发现有些文章内容不是很懂,干脆就一边翻译一边看了,不懂的地方我会加下划线,如果有人看到了,还请不吝指