跳转至

什么是差分隐私?

以下内容翻译自 Privacy Guides 的文章:

是否有可能从大量人群中收集数据,同时又保护每个个体的隐私?在这篇关于隐私增强技术(Privacy-Enhancing Technologies)系列的文章中,我们要讨论差分隐私(Differential Privacy),以及它如何做到这一点。

写给关心匿名网络的读者

差分隐私和 Tor 等匿名通信工具处理的是不同层次的隐私问题。Tor 保护的是你"传输过程",让观察者无法得知你在跟谁通信;差分隐私处理的是"数据发布时",让统计数据在公开后无法被还原成对个人的识别。两者并不替代彼此,而是完整威胁模型中的不同切面。

如果你关心个人数据在各种服务、平台或政府数据集中的去向,差分隐私值得理解的理由在于:即便是"去识别化"或"匿名统计"形式的数据,也可能在与其他数据交叉比对后被还原。学会识别哪些隐私声明是可被验证的、哪些只是营销话术,是这篇文章希望提供给你的视角。

问题所在

从大规模人群中收集数据确实有其价值,可以看出群体中的趋势。但这需要大量个人交出个人识别信息(PII)。即使是看似无害的性别信息,也能协助识别出你的身份。

Latanya Sweeney 在 2000 年的一篇论文中,尝试仅凭美国人口普查数据中的可用指标来重新识别个人。她发现,87% 的美国人仅凭三项指标就能被识别出来:邮政编码、出生日期和性别。能够根据公开数据识别个人,显然是一个严重的隐私问题。

差分隐私之前的历史

收集汇总数据对研究至关重要,美国人口普查每十年就进行一次。通常我们对整体数据更感兴趣,而非个人数据,因为整体数据能呈现群体的趋势与模式。然而,为了获取这些数据,仍必须从个人处收集。

起初,人们以为只要移除姓名等明显的识别信息就足以防止再识别,但 Sweeney 在 1997 年便已证明,即便没有姓名,通过与外部数据交叉比对,仍可再识别出相当比例的个人。早期的去识别化手段,事后都被证明极易遭受再识别攻击。

AOL 搜索记录泄露事件

一个著名的案例是 AOL 搜索记录泄露。AOL 长期记录用户的搜索行为供研究用途,在发布数据时,他们只将用户真实姓名替换为识别码。然而,研究人员仍能依据用户 4417749 的搜索内容细节,识别出她是 Thelma Arnold。

Strava 热力图事件

2018 年,运动 app Strava 发布了更新版本的热力图,显示 Fitbit 等运动追踪器用户的运动模式。分析师 Nathan Ruser 发现,这些模式可以揭露军事基地和部队移动路线,对行动安全构成严重威胁,甚至可能危及士兵生命。在某些情况下,个别用户也能被去匿名化。

Strava 并未故意揭露任何人,但大量个人路线数据在聚合后,自然呈现出"只有特定人才会反覆出现在这个位置"的模式。这正是差分隐私要解决的核心问题:聚合后的统计数据,仍然可以泄露个体的行为模式。

随机响应法(Randomized Response)

最早的数据匿名化想法之一是随机响应法,早在 1965 年便由 Stanley L. Warner 的论文引入。其背后的逻辑相当聪明:对于"你有没有逃税?"这类问题,受访者可能不愿意如实作答。解决方案是让受访者抛一枚硬币,若正面就回答"是",若反面则如实作答。

受访者 回答 硬币结果(仅供说明)
1 正面(答是)
2 反面(如实作答)
3 正面(答是)
4 正面(答是)
5 反面(如实作答)

由于我们知道"是"的假答案占 50%,可以扣除后粗估真正回答"是"的比例。随机响应法奠定了差分隐私的基础,但要真正实现,还得等几十年。

无关问题随机响应法(Unrelated Question Randomized Response)

后来 Greenberg 等人在论文中提出了变体:向每位受访者呈现一个敏感问题,或是一个无关的普通问题(例如"你的生日是一月吗?"),以提高如实作答的可能性,因为研究者不知道被抽到的是哪个问题。

受访者 问题(研究者不可见) 回答
1 你有没有逃税?
2 你的生日是一月吗?
3 你的生日是一月吗?
4 你有没有逃税?
5 你有没有逃税?

k-匿名(k-Anonymity)

Latanya Sweeney 与 Pierangela Samarati 在 1998 年提出了 k-匿名。有趣的是,早在 1998 年,人们便已意识到持续性数据收集的隐私问题:日常生活中的许多行为都被某处的计算机所记录,这些信息往往被分享、交换与出售。不当披露医疗、财务信息或国家安全事务,后果可能相当严重。

在数据集中,即便移除了姓名等明显识别信息,仍可能保留生日、邮政编码等其他数据,这些数据在数据集中可能是某人独有的。若与外部数据交叉比对,就可能对个人去匿名化。k-匿名的意思是,数据集中每一行,都至少有 k-1 行是完全相同的。

泛化(Generalization)

其中一种实现方式是泛化:降低数据的精确度,使其不那么独特。例如,不记录确切年龄,而是给出 20–30 岁这样的范围。这类无法直接识别个人但可能用于再识别的数据,称为准标识符(quasi-identifiers)。

抑制(Suppression)

有时即使泛化后,仍有不符合 k-匿名要求的离群值,此时可以直接移除该行。

k-匿名的攻击

k-匿名已被证明无法完全防止再识别。研究人员通过与 LinkedIn 数据交叉比对,成功从哈佛和 MIT EdX 平台的 k-匿名化数据集中,对 3 名学生去匿名化,使数千名学生面临再识别风险。他们的方法是找出数据集中难以泛化的准标识符组合(特定课程的选修记录),再对应 LinkedIn 上公开的学历与职业信息,逐步缩小候选名单。k-匿名无法防御这种外部数据交叉比对,正是其核心缺陷。

差分隐私的诞生

我撰写的大多数概念都源自 1970–80 年代,但差分隐私是相对较新的概念。它首先出现在 2006 年的论文《Calibrating Noise to Sensitivity in Private Data Analysis》中,提出了向数据加入噪声(noise)来达成隐私保护的想法,类似于随机响应法,但数学上更为严谨、可被证明。

ε(隐私预算)

向数据集加入噪声会降低其准确度。ε(epsilon)定义了加入噪声的数量,ε 越小表示隐私保护越强,但数据准确度也越低,反之亦然。ε 也被称为"隐私损耗参数"或"隐私预算"。

中央差分隐私(Central Differential Privacy)

早期的差分隐私依赖在数据收集后才加入噪声,也就是说,你仍需信任中央机构持有原始数据。对于关心政府或企业滥用数据的人来说,这是个关键缺陷:即便最终发布的统计结果受到保护,原始数据在送达服务器之前,已完整暴露在数据收集者面前,加噪的是输出,不是输入。

Google RAPPOR

2014 年,Google 推出了 RAPPOR(Randomized Aggregatable Privacy-Preserving Ordinal Response),这是他们的开源差分隐私实现。RAPPOR 建立在随机响应法等先前技术之上,并加入了重大改进。

本地差分隐私(Local Differential Privacy)

在 Google 的实现中,噪声在数据传送至任何服务器前就已在设备端加入。这消除了对中央机构处理原始数据的信任需求,是实现真正匿名数据收集的重要一步。

布隆过滤器(Bloom Filters)

RAPPOR 使用了一种称为布隆过滤器的巧妙技术,以节省空间并提升隐私。布隆过滤器从一组全为 0 的数组开始:

[0, 0, 0, 0, 0, 0, 0, 0, 0]

然后将"apple"这样的数据通过哈希算法,在特定位置(例如第 1、3、5 位)设为 1:

[0, 1, 0, 1, 0, 1, 0, 0, 0]

要确认某项数据是否存在时,将数据通过哈希算法,检查对应位置是否为 1。如果都是 1,则数据可能存在(其他数据也可能翻转了这些位);如果任何一个 1 对应到 0,则可确定数据不在集合中。

永久性随机响应(Permanent Randomized Response)

对部分比特进行随机翻转,这个结果会被"记忆化(memoize)",供未来的上报使用相同的随机值,以防止"平均化攻击"(攻击者多次查询同一用户以推测真实值)。

即时随机响应(Instantaneous Randomized Response)

在永久性响应的基础上,每次上报时再进行额外的随机化,提供进一步的保护。

Chrome、Maps、Google Fi

RAPPOR 被 Google Chrome 用于追踪用户最常访问的网站(以改善推荐功能)、Google Maps 的位置数据,以及 Google Fi 的移动数据使用模式。

OpenDP

哈佛大学建立了 OpenDP,一套开源的差分隐私工具库,让研究人员与组织能更容易地在自己的数据集中应用差分隐私技术。

Apple

Apple 也将差分隐私整合至 iOS 的数据收集流程中。

Sketch(计数最小值草图)

Apple 使用计数最小值草图(count-min sketch)数据结构,搭配本地差分隐私,收集表情符号使用频率、键盘输入等本地数据。

Matrix

Matrix 机制识别设备设置中的使用模式(例如用户添加至词典的词汇),在本地加入噪声后才传输。

See What's Sent

Apple 维护了一份透明度页面,说明他们从用户设备收集哪些差分隐私数据,以及其目的。

Google 和 Apple 在公开文件中都没有揭露所使用的 ε 值。"使用本地差分隐私"这个声明可以从技术论文与程序代码中部分验证,但隐私保护的实际强度,仍是用户无法独立核实的部分。

美国人口普查

起因(Impetus)

2020 年美国人口普查采用了差分隐私技术(称为 DAS,Disclosure Avoidance System),取代了原本存在已知再识别漏洞的旧有系统。由于人口普查数据用于分配国会席次与联邦资金,准确性至关重要。

差分隐私的引入引发了一些争议,特别是在如何设定 ε 值上:较小的 ε 可保护隐私,但会使小型社区的数据准确度降低。

DPrio(Mozilla Prio)

Mozilla 开发了 Prio,一套用于分布式统计汇总的协议,使用差分隐私收集 Firefox 的遥测数据,同时保护用户隐私。

差分隐私的未来

差分隐私仍是一个活跃的研究领域,核心挑战在于如何在隐私与数据效用之间取得平衡。ε 的设定至今仍是开放性问题:应由谁决定?应设多大?如何审计?

AI 训练数据的隐私问题,让差分隐私的重要性在近年急速提升。研究人员已证明,机器学习模型在训练完成后,仍可能通过"成员推断攻击(membership inference attack)"泄露训练数据中的个人信息:攻击者可以系统性地探测模型,判断某条特定数据是否曾出现在训练集中。这对使用大规模个人数据训练 AI 的机构来说,构成了可被量化的隐私风险。在训练过程中导入差分隐私,是目前已知最具理论保证的防御手段之一,也是评估 AI 系统隐私承诺时的具体技术指标。

延伸阅读


中国地区与简体中文地区观点

政府数据与个人信息保护

中国《个人信息保护法》(PIPL)自 2021 年施行以来,对数据匿名化和去识别化均有明确要求。然而,法规层面的"匿名化"标准与差分隐私所提供的可证明隐私保护之间,仍存在相当大的落差。文中美国人口普查导入差分隐私的案例,为讨论中国人口普查及政府大数据平台应采用何种技术标准提供了参照。

科技企业与本地差分隐私

国内主要科技平台(如微信、支付宝、百度)在用户遥测数据的处理方式上鲜少公开技术细节。Google RAPPOR 和 Apple 本地差分隐私的实践,展示了"在设备端加噪后再上传"的可行性,为中国科技企业提供了可以参考的技术路径,也为监管机构制定更具可操作性的隐私标准提供了依据。

研究与公民数据

中国在医疗大数据、智慧城市和学术研究数据共享方面积累了大量数据资产。差分隐私作为一种可被数学证明的隐私保护技术,为研究人员在利用这些数据的同时保护个人隐私提供了有效工具。相关学术社群(如中国密码学会、隐私计算领域研究者)已开始关注差分隐私的实际部署,这一趋势值得持续关注。

延伸阅读

台湾数位发展部推动的《隐私强化技术应用指引》,以繁体中文系统梳理了包括差分隐私在内的五项核心 PETs 技术,并提供应用情境与实践案例。对于希望以中文参考技术实践的读者,该指引是一份有助于理解差分隐私政策落地路径的公开资源。

参考资源:隐私强化技术应用指引