跳轉到

什麼是差分隱私?

以下內容翻譯自 Privacy Guides 的文章:

是否有可能從大量人群中蒐集資料,同時又保護每個個體的隱私?在這篇關於隱私增強技術(Privacy-Enhancing Technologies)系列的文章中,我們要討論差分隱私(Differential Privacy),以及它如何做到這一點。

給關心匿名網路的讀者

差分隱私和 Tor 等匿名通訊工具處理的是不同層次的隱私問題。Tor 保護的是你「傳輸過程」,讓觀察者無法得知你在跟誰通訊;差分隱私處理的是「資料釋出時」,讓統計資料在公開後無法被還原成對個人的識別。兩者並不替代彼此,而是完整威脅模型中的不同切面。

如果你關心個人資料在各種服務、平台或政府資料集中的去向,差分隱私值得理解的理由在於:即便是「去識別化」或「匿名統計」形式的資料,也可能在與其他資料交叉比對後被還原。學會識別哪些隱私聲明是可被驗證的、哪些只是行銷話術,是這篇文章希望提供給你的視角。

問題所在

從大規模人群中蒐集資料確實有其價值,可以看出族群中的趨勢。但這需要大量個人交出個人識別資訊(PII)。即使是看似無害的性別資訊,也能協助識別出你的身份。

Latanya Sweeney 在 2000 年的一篇論文中,嘗試僅憑美國人口普查資料中的可用指標來重新識別個人。她發現,87% 的美國人僅憑三項指標就能被識別出來:郵遞區號、出生日期和性別。能夠根據公開資料識別個人,顯然是一個嚴重的隱私問題。

差分隱私之前的歷史

蒐集彙整資料對研究至關重要,美國人口普查每十年就進行一次。通常我們對整體資料更感興趣,而非個人資料,因為整體資料能呈現族群的趨勢與模式。然而,為了取得這些資料,仍必須從個人處蒐集。

起初,人們以為只要移除姓名等明顯的識別資訊就足以防止再識別,但 Sweeney 在 1997 年便已證明,即便沒有姓名,透過與外部資料交叉比對,仍可再識別出相當比例的個人。早期的去識別化手段,事後都被證明極易遭受再識別攻擊。

AOL 搜尋記錄外洩事件

一個著名的案例是 AOL 搜尋記錄外洩。AOL 長期記錄使用者的搜尋行為供研究用途,在釋出資料時,他們只將用戶真實姓名替換為識別碼。然而,研究人員仍能依據使用者 4417749 的搜尋內容細節,識別出她是 Thelma Arnold。

Strava 熱力圖事件

2018 年,運動 app Strava 發布了更新版本的熱力圖,顯示 Fitbit 等運動追蹤器使用者的運動模式。分析師 Nathan Ruser 發現,這些模式可以揭露軍事基地和軍隊移動路線,對行動安全構成嚴重威脅,甚至可能危及士兵生命。在某些情況下,個別使用者也能被去匿名化。

Strava 並未故意揭露任何人,但大量個人路線資料在聚合後,自然呈現出「只有特定人才會反覆出現在這個位置」的模式。這正是差分隱私要解決的核心問題:聚合後的統計資料,仍然可以洩漏個體的行為模式。

隨機回應法(Randomized Response)

最早的資料匿名化想法之一是隨機回應法,早在 1965 年便由 Stanley L. Warner 的論文引入。其背後的邏輯相當聰明:對於「你有沒有逃漏稅?」這類問題,受訪者可能不願意如實作答。解決方案是讓受訪者丟一枚硬幣,若正面就回答「是」,若反面則如實作答。

受訪者 回答 硬幣結果(僅供說明)
1 正面(答是)
2 反面(如實作答)
3 正面(答是)
4 正面(答是)
5 反面(如實作答)

由於我們知道「是」的假答案佔 50%,可以扣除後粗估真正回答「是」的比例。隨機回應法奠定了差分隱私的基礎,但要真正實現,還得等幾十年。

無關問題隨機回應法(Unrelated Question Randomized Response)

後來 Greenberg 等人在論文中提出了變體:向每位受訪者呈現一個敏感問題,或是一個無關的普通問題(例如「你的生日是一月嗎?」),以提高如實作答的可能性,因為研究者不知道被抽到的是哪個問題。

受訪者 問題(研究者不可見) 回答
1 你有沒有逃漏稅?
2 你的生日是一月嗎?
3 你的生日是一月嗎?
4 你有沒有逃漏稅?
5 你有沒有逃漏稅?

k-匿名(k-Anonymity)

Latanya Sweeney 與 Pierangela Samarati 在 1998 年提出了 k-匿名。有趣的是,早在 1998 年,人們便已意識到持續性資料蒐集的隱私問題:日常生活中的許多行動都被某處的電腦所記錄,這些資訊往往被分享、交換與販售。不當揭露醫療、財務資訊或國家安全事務,後果可能相當嚴重。

在資料集中,即便移除了姓名等明顯識別資訊,仍可能保留生日、郵遞區號等其他資料,這些資料在資料集中可能是某人獨有的。若與外部資料交叉比對,就可能對個人去匿名化。k-匿名的意思是,資料集中每一列,都至少有 k-1 列是完全相同的。

泛化(Generalization)

其中一種實現方式是泛化:降低資料的精確度,使其不那麼獨特。例如,不記錄確切年齡,而是給出 20–30 歲這樣的範圍。這類無法直接識別個人但可能用於再識別的資料,稱為準識別符(quasi-identifiers)。

抑制(Suppression)

有時即使泛化後,仍有不符合 k-匿名要求的離群值,此時可以直接移除該列。

k-匿名的攻擊

k-匿名已被證明無法完全防止再識別。研究人員透過與 LinkedIn 資料交叉比對,成功從哈佛和 MIT EdX 平台的 k-匿名化資料集中,對 3 名學生去匿名化,使數千名學生面臨再識別風險。他們的方法是找出資料集中難以泛化的準識別符組合(特定課程的選修紀錄),再對應 LinkedIn 上公開的學歷與職業資訊,逐步縮小候選名單。k-匿名無法防禦這種外部資料交叉比對,正是其核心缺陷。

差分隱私的誕生

我撰寫的大多數概念都源自 1970–80 年代,但差分隱私是相對較新的概念。它首先出現在 2006 年的論文《Calibrating Noise to Sensitivity in Private Data Analysis》中,提出了向資料加入雜訊(noise)來達成隱私保護的想法,類似於隨機回應法,但數學上更為嚴謹、可被證明。

ε(隱私預算)

向資料集加入雜訊會降低其準確度。ε(epsilon)定義了加入雜訊的數量,ε 越小表示隱私保護越強,但資料準確度也越低,反之亦然。ε 也被稱為「隱私損耗參數」或「隱私預算」。

中央差分隱私(Central Differential Privacy)

早期的差分隱私依賴在資料蒐集後才加入雜訊,也就是說,你仍需信任中央機構持有原始資料。對於關心政府或企業濫用資料的人來說,這是個關鍵缺陷:即便最終釋出的統計結果受到保護,原始資料在送達伺服器之前,已完整暴露在資料蒐集者面前,加噪的是輸出,不是輸入。

Google RAPPOR

2014 年,Google 推出了 RAPPOR(Randomized Aggregatable Privacy-Preserving Ordinal Response),這是他們的開源差分隱私實作。RAPPOR 建立在隨機回應法等先前技術之上,並加入了重大改進。

本機差分隱私(Local Differential Privacy)

在 Google 的實作中,雜訊在資料傳送至任何伺服器前就已在裝置端加入。這消除了對中央機構處理原始資料的信任需求,是實現真正匿名資料蒐集的重要一步。

布隆過濾器(Bloom Filters)

RAPPOR 使用了一種稱為布隆過濾器的巧妙技術,以節省空間並提升隱私。布隆過濾器從一組全為 0 的陣列開始:

[0, 0, 0, 0, 0, 0, 0, 0, 0]

然後將「apple」這樣的資料通過雜湊演算法,在特定位置(例如第 1、3、5 位)設為 1:

[0, 1, 0, 1, 0, 1, 0, 0, 0]

要確認某項資料是否存在時,將資料通過雜湊演算法,檢查對應位置是否為 1。如果都是 1,則資料可能存在(其他資料也可能翻轉了這些位);如果任何一個 1 對應到 0,則可確定資料不在集合中。

永久性隨機回應(Permanent Randomized Response)

對部分位元進行隨機翻轉,這個結果會被「記憶化(memoize)」,供未來的回報使用相同的隨機值,以防止「平均化攻擊」(攻擊者多次查詢同一使用者以推測真實值)。

即時隨機回應(Instantaneous Randomized Response)

在永久性回應的基礎上,每次回報時再進行額外的隨機化,提供進一步的保護。

Chrome、Maps、Google Fi

RAPPOR 被 Google Chrome 用於追蹤使用者最常造訪的網站(以改善建議功能)、Google Maps 的位置資料,以及 Google Fi 的行動數據使用模式。

OpenDP

哈佛大學建立了 OpenDP,一套開源的差分隱私工具庫,讓研究人員與組織能更容易地在自己的資料集中應用差分隱私技術。

Apple

Apple 也將差分隱私整合至 iOS 的資料蒐集流程中。

Sketch(計數最小值草圖)

Apple 使用計數最小值草圖(count-min sketch)資料結構,搭配本機差分隱私,蒐集表情符號使用頻率、鍵盤輸入等在地資料。

Matrix

Matrix 機制識別裝置設定中的使用模式(例如使用者新增至字典的詞彙),在本機加入雜訊後才傳輸。

See What's Sent

Apple 維護了一份透明度頁面,說明他們從使用者裝置蒐集哪些差分隱私資料,以及其目的。

Google 和 Apple 在公開文件中都沒有揭露所使用的 ε 值。「使用本機差分隱私」這個聲明可以從技術論文與程式碼中部分驗證,但隱私保護的實際強度,仍是使用者無法獨立核實的部分。

美國人口普查

起因(Impetus)

2020 年美國人口普查採用了差分隱私技術(稱為 DAS,Disclosure Avoidance System),取代了原本存在已知再識別漏洞的舊有系統。由於人口普查資料用於分配國會席次與聯邦資金,準確性至關重要。

差分隱私的導入引發了一些爭議,特別是在如何設定 ε 值上:較小的 ε 可保護隱私,但會使小型社群的資料準確度降低。

DPrio(Mozilla Prio)

Mozilla 開發了 Prio,一套用於分散式統計匯總的協議,使用差分隱私蒐集 Firefox 的遙測資料,同時保護使用者隱私。

差分隱私的未來

差分隱私仍是一個活躍的研究領域,核心挑戰在於如何在隱私與資料效用之間取得平衡。ε 的設定至今仍是開放性問題:應由誰決定?應設多大?如何審計?

AI 訓練資料的隱私問題,讓差分隱私的重要性在近年急速提升。研究人員已證明,機器學習模型在訓練完成後,仍可能透過「成員推斷攻擊(membership inference attack)」洩漏訓練資料中的個人資訊:攻擊者可以系統性地探測模型,判斷某筆特定資料是否曾出現在訓練集中。這對使用大規模個人資料訓練 AI 的機構來說,構成了可被量化的隱私風險。在訓練過程中導入差分隱私,是目前已知最具理論保證的防禦手段之一,也是評估 AI 系統隱私承諾時的具體技術指標。

延伸閱讀


台灣觀點

政府統計與開放資料

台灣人口普查及各機關開放資料的去識別化實務,可與美國 2020 年人口普查導入差分隱私的脈絡對照:台灣哪些統計資料集有公開方法與 ε 範圍?目前政府開放資料平台(data.gov.tw)對去識別化方式的說明仍相當有限,差分隱私提供了一個可以要求更高透明度的論述框架。

法規與產業

個人資料保護法的去識別化指引,以及企業行動應用程式蒐集遙測資料的行為,皆與本文主題直接相關。「本機加噪再回傳」(Local DP)的模式在台灣產品中能見度低,使用者普遍難以評估工具是否真的做到可驗證的隱私保護。差分隱私提供了一個可以要求企業說明的技術標準。

公民社會

健保資料庫、智慧城市交通資料、學術研究資料集等大規模資料再利用的爭議,在台灣近年持續出現。差分隱私可作為政策倡議的關鍵詞之一,讓公民社會在討論資料開放時,有更具體的「可證明隱私保護」訴求,而不只是「請匿名化」這樣模糊的要求。

線上參考資源

數位發展部推動的《隱私強化技術應用指引》,以中文系統整理了差分隱私、合成資料、聯合學習等五項核心隱私強化技術的應用情境、施用流程與實踐案例,是目前台灣少數以政策角度切入、提供可操作說明的 PETs 指引,也是倡議者與研究者在台灣脈絡下理解差分隱私的實用起點。

參考資源:隱私強化技術應用指引