什麼是差分隱私？¶

以下內容翻譯自 Privacy Guides 的文章：

What is Differential Privacy?, fria, 2025-09-30

是否有可能從大量人群中蒐集資料，同時又保護每個個體的隱私？在這篇關於隱私增強技術（Privacy-Enhancing Technologies）系列的文章中，我們要討論差分隱私（Differential Privacy），以及它如何做到這一點。

給關心匿名網路的讀者

差分隱私和 Tor 等匿名通訊工具處理的是不同層次的隱私問題。Tor 保護的是你「傳輸過程」，讓觀察者無法得知你在跟誰通訊；差分隱私處理的是「資料釋出時」，讓統計資料在公開後無法被還原成對個人的識別。兩者並不替代彼此，而是完整威脅模型中的不同切面。

如果你關心個人資料在各種服務、平台或政府資料集中的去向，差分隱私值得理解的理由在於：即便是「去識別化」或「匿名統計」形式的資料，也可能在與其他資料交叉比對後被還原。學會識別哪些隱私聲明是可被驗證的、哪些只是行銷話術，是這篇文章希望提供給你的視角。

問題所在¶

從大規模人群中蒐集資料確實有其價值，可以看出族群中的趨勢。但這需要大量個人交出個人識別資訊（PII）。即使是看似無害的性別資訊，也能協助識別出你的身份。

Latanya Sweeney 在 2000 年的一篇論文中，嘗試僅憑美國人口普查資料中的可用指標來重新識別個人。她發現，87% 的美國人僅憑三項指標就能被識別出來：郵遞區號、出生日期和性別。能夠根據公開資料識別個人，顯然是一個嚴重的隱私問題。

差分隱私之前的歷史¶

蒐集彙整資料對研究至關重要，美國人口普查每十年就進行一次。通常我們對整體資料更感興趣，而非個人資料，因為整體資料能呈現族群的趨勢與模式。然而，為了取得這些資料，仍必須從個人處蒐集。

起初，人們以為只要移除姓名等明顯的識別資訊就足以防止再識別，但 Sweeney 在 1997 年便已證明，即便沒有姓名，透過與外部資料交叉比對，仍可再識別出相當比例的個人。早期的去識別化手段，事後都被證明極易遭受再識別攻擊。

AOL 搜尋記錄外洩事件¶

一個著名的案例是 AOL 搜尋記錄外洩。AOL 長期記錄使用者的搜尋行為供研究用途，在釋出資料時，他們只將用戶真實姓名替換為識別碼。然而，研究人員仍能依據使用者 4417749 的搜尋內容細節，識別出她是 Thelma Arnold。

Strava 熱力圖事件¶

2018 年，運動 app Strava 發布了更新版本的熱力圖，顯示 Fitbit 等運動追蹤器使用者的運動模式。分析師 Nathan Ruser 發現，這些模式可以揭露軍事基地和軍隊移動路線，對行動安全構成嚴重威脅，甚至可能危及士兵生命。在某些情況下，個別使用者也能被去匿名化。

Strava 並未故意揭露任何人，但大量個人路線資料在聚合後，自然呈現出「只有特定人才會反覆出現在這個位置」的模式。這正是差分隱私要解決的核心問題：聚合後的統計資料，仍然可以洩漏個體的行為模式。

隨機回應法（Randomized Response）¶

最早的資料匿名化想法之一是隨機回應法，早在 1965 年便由 Stanley L. Warner 的論文引入。其背後的邏輯相當聰明：對於「你有沒有逃漏稅？」這類問題，受訪者可能不願意如實作答。解決方案是讓受訪者丟一枚硬幣，若正面就回答「是」，若反面則如實作答。

受訪者	回答	硬幣結果（僅供說明）
1	是	正面（答是）
2	否	反面（如實作答）
3	是	正面（答是）
4	是	正面（答是）
5	否	反面（如實作答）

由於我們知道「是」的假答案佔 50%，可以扣除後粗估真正回答「是」的比例。隨機回應法奠定了差分隱私的基礎，但要真正實現，還得等幾十年。

無關問題隨機回應法（Unrelated Question Randomized Response）

後來 Greenberg 等人在論文中提出了變體：向每位受訪者呈現一個敏感問題，或是一個無關的普通問題（例如「你的生日是一月嗎？」），以提高如實作答的可能性，因為研究者不知道被抽到的是哪個問題。

受訪者	問題（研究者不可見）	回答
1	你有沒有逃漏稅？	否
2	你的生日是一月嗎？	是
3	你的生日是一月嗎？	否
4	你有沒有逃漏稅？	是
5	你有沒有逃漏稅？	否

k-匿名（k-Anonymity）¶

Latanya Sweeney 與 Pierangela Samarati 在 1998 年提出了 k-匿名。有趣的是，早在 1998 年，人們便已意識到持續性資料蒐集的隱私問題：日常生活中的許多行動都被某處的電腦所記錄，這些資訊往往被分享、交換與販售。不當揭露醫療、財務資訊或國家安全事務，後果可能相當嚴重。

在資料集中，即便移除了姓名等明顯識別資訊，仍可能保留生日、郵遞區號等其他資料，這些資料在資料集中可能是某人獨有的。若與外部資料交叉比對，就可能對個人去匿名化。k-匿名的意思是，資料集中每一列，都至少有 k-1 列是完全相同的。

泛化（Generalization）

其中一種實現方式是泛化：降低資料的精確度，使其不那麼獨特。例如，不記錄確切年齡，而是給出 20–30 歲這樣的範圍。這類無法直接識別個人但可能用於再識別的資料，稱為準識別符（quasi-identifiers）。

抑制（Suppression）

有時即使泛化後，仍有不符合 k-匿名要求的離群值，此時可以直接移除該列。

k-匿名的攻擊

k-匿名已被證明無法完全防止再識別。研究人員透過與 LinkedIn 資料交叉比對，成功從哈佛和 MIT EdX 平台的 k-匿名化資料集中，對 3 名學生去匿名化，使數千名學生面臨再識別風險。他們的方法是找出資料集中難以泛化的準識別符組合（特定課程的選修紀錄），再對應 LinkedIn 上公開的學歷與職業資訊，逐步縮小候選名單。k-匿名無法防禦這種外部資料交叉比對，正是其核心缺陷。

差分隱私的誕生¶

我撰寫的大多數概念都源自 1970–80 年代，但差分隱私是相對較新的概念。它首先出現在 2006 年的論文《Calibrating Noise to Sensitivity in Private Data Analysis》中，提出了向資料加入雜訊（noise）來達成隱私保護的想法，類似於隨機回應法，但數學上更為嚴謹、可被證明。

ε（隱私預算）

向資料集加入雜訊會降低其準確度。ε（epsilon）定義了加入雜訊的數量，ε 越小表示隱私保護越強，但資料準確度也越低，反之亦然。ε 也被稱為「隱私損耗參數」或「隱私預算」。

中央差分隱私（Central Differential Privacy）

早期的差分隱私依賴在資料蒐集後才加入雜訊，也就是說，你仍需信任中央機構持有原始資料。對於關心政府或企業濫用資料的人來說，這是個關鍵缺陷：即便最終釋出的統計結果受到保護，原始資料在送達伺服器之前，已完整暴露在資料蒐集者面前，加噪的是輸出，不是輸入。

Google RAPPOR¶

2014 年，Google 推出了 RAPPOR（Randomized Aggregatable Privacy-Preserving Ordinal Response），這是他們的開源差分隱私實作。RAPPOR 建立在隨機回應法等先前技術之上，並加入了重大改進。

本機差分隱私（Local Differential Privacy）¶

在 Google 的實作中，雜訊在資料傳送至任何伺服器前就已在裝置端加入。這消除了對中央機構處理原始資料的信任需求，是實現真正匿名資料蒐集的重要一步。

布隆過濾器（Bloom Filters）¶

RAPPOR 使用了一種稱為布隆過濾器的巧妙技術，以節省空間並提升隱私。布隆過濾器從一組全為 0 的陣列開始：

[0, 0, 0, 0, 0, 0, 0, 0, 0]

然後將「apple」這樣的資料通過雜湊演算法，在特定位置（例如第 1、3、5 位）設為 1：

[0, 1, 0, 1, 0, 1, 0, 0, 0]

要確認某項資料是否存在時，將資料通過雜湊演算法，檢查對應位置是否為 1。如果都是 1，則資料可能存在（其他資料也可能翻轉了這些位）；如果任何一個 1 對應到 0，則可確定資料不在集合中。

永久性隨機回應（Permanent Randomized Response）¶

對部分位元進行隨機翻轉，這個結果會被「記憶化（memoize）」，供未來的回報使用相同的隨機值，以防止「平均化攻擊」（攻擊者多次查詢同一使用者以推測真實值）。

即時隨機回應（Instantaneous Randomized Response）¶

在永久性回應的基礎上，每次回報時再進行額外的隨機化，提供進一步的保護。

Chrome、Maps、Google Fi¶

RAPPOR 被 Google Chrome 用於追蹤使用者最常造訪的網站（以改善建議功能）、Google Maps 的位置資料，以及 Google Fi 的行動數據使用模式。

OpenDP¶

哈佛大學建立了 OpenDP，一套開源的差分隱私工具庫，讓研究人員與組織能更容易地在自己的資料集中應用差分隱私技術。

Apple¶

Apple 也將差分隱私整合至 iOS 的資料蒐集流程中。

Sketch（計數最小值草圖）

Apple 使用計數最小值草圖（count-min sketch）資料結構，搭配本機差分隱私，蒐集表情符號使用頻率、鍵盤輸入等在地資料。

Matrix

Matrix 機制識別裝置設定中的使用模式（例如使用者新增至字典的詞彙），在本機加入雜訊後才傳輸。

See What's Sent

Apple 維護了一份透明度頁面，說明他們從使用者裝置蒐集哪些差分隱私資料，以及其目的。

Google 和 Apple 在公開文件中都沒有揭露所使用的 ε 值。「使用本機差分隱私」這個聲明可以從技術論文與程式碼中部分驗證，但隱私保護的實際強度，仍是使用者無法獨立核實的部分。

美國人口普查¶

起因（Impetus）¶

2020 年美國人口普查採用了差分隱私技術（稱為 DAS，Disclosure Avoidance System），取代了原本存在已知再識別漏洞的舊有系統。由於人口普查資料用於分配國會席次與聯邦資金，準確性至關重要。

差分隱私的導入引發了一些爭議，特別是在如何設定 ε 值上：較小的 ε 可保護隱私，但會使小型社群的資料準確度降低。

DPrio（Mozilla Prio）¶

Mozilla 開發了 Prio，一套用於分散式統計匯總的協議，使用差分隱私蒐集 Firefox 的遙測資料，同時保護使用者隱私。

差分隱私的未來¶

差分隱私仍是一個活躍的研究領域，核心挑戰在於如何在隱私與資料效用之間取得平衡。ε 的設定至今仍是開放性問題：應由誰決定？應設多大？如何審計？

AI 訓練資料的隱私問題，讓差分隱私的重要性在近年急速提升。研究人員已證明，機器學習模型在訓練完成後，仍可能透過「成員推斷攻擊（membership inference attack）」洩漏訓練資料中的個人資訊：攻擊者可以系統性地探測模型，判斷某筆特定資料是否曾出現在訓練集中。這對使用大規模個人資料訓練 AI 的機構來說，構成了可被量化的隱私風險。在訓練過程中導入差分隱私，是目前已知最具理論保證的防禦手段之一，也是評估 AI 系統隱私承諾時的具體技術指標。

延伸閱讀¶

台灣觀點¶

政府統計與開放資料¶

台灣人口普查及各機關開放資料的去識別化實務，可與美國 2020 年人口普查導入差分隱私的脈絡對照：台灣哪些統計資料集有公開方法與 ε 範圍？目前政府開放資料平台（data.gov.tw）對去識別化方式的說明仍相當有限，差分隱私提供了一個可以要求更高透明度的論述框架。

法規與產業¶

個人資料保護法的去識別化指引，以及企業行動應用程式蒐集遙測資料的行為，皆與本文主題直接相關。「本機加噪再回傳」（Local DP）的模式在台灣產品中能見度低，使用者普遍難以評估工具是否真的做到可驗證的隱私保護。差分隱私提供了一個可以要求企業說明的技術標準。

公民社會¶

健保資料庫、智慧城市交通資料、學術研究資料集等大規模資料再利用的爭議，在台灣近年持續出現。差分隱私可作為政策倡議的關鍵詞之一，讓公民社會在討論資料開放時，有更具體的「可證明隱私保護」訴求，而不只是「請匿名化」這樣模糊的要求。

線上參考資源¶

數位發展部推動的《隱私強化技術應用指引》，以中文系統整理了差分隱私、合成資料、聯合學習等五項核心隱私強化技術的應用情境、施用流程與實踐案例，是目前台灣少數以政策角度切入、提供可操作說明的 PETs 指引，也是倡議者與研究者在台灣脈絡下理解差分隱私的實用起點。

參考資源：隱私強化技術應用指引