Metadata 是什麼,為什麼重要¶
「我用了端對端加密,沒人讀得到我的訊息,所以是安全的吧?」前半段沒問題,問題出在後半段。Metadata 就是後半段缺的那一塊。
Metadata 字面意思是「資料的資料」。你打了一通電話,通話內容是資料,通話對象、時間、地點、長度就是 Metadata。內容雖然加密了沒人讀,但光是 metadata 已經足以還原一個人的社交網絡、行為模式、生活軌跡。對許多威脅模型來說,metadata 才是真正的破口。
這頁解釋 metadata 從哪裡來、為什麼比直覺中還危險,以及減少 metadata 暴露的幾個基本做法。
一句被引用很多次的話¶
「我們根據 Metadata 殺人。」
這是前美國國家安全局(NSA)與中央情報局(CIA)局長 Michael Hayden 在 2014 年的公開談話。他要說的是:在很多情境下,光是知道「誰跟誰通訊、何時何地」就足以下決定,根本不需要讀內容1。
這句話聽起來嚇人,但它揭露的事實對日常生活同樣適用。Metadata 不是只有國家級監控才在意的東西。廣告商、平台演算法、保險業、在追蹤前任的人、想肉搜你的網友,都用同一份原料。
Metadata 從哪裡來¶
Metadata 是各種日常行為的副產品,散佈在各處,沒有單一集中的來源。常見來源:
通訊類¶
- 電話:撥出與接收的號碼、時間、通話長度、基地台位置
- 簡訊:寄件人、收件人、時間、長度
- 電子郵件:寄件人、收件人、副本、時間、信件大小、信件主旨(多數情況不被加密)
- 即時通訊:誰跟誰是好友、訊息往返的頻率與時間、群組成員清單
注意:就算內容是端對端加密,上面這些通常不加密。Signal 算是少數刻意減少這類 metadata 蒐集的工具,但仍無法完全消除(例如註冊綁手機就洩漏一個身分線索)。
檔案類¶
- 照片:EXIF 資訊(拍攝時間、相機型號、GPS 座標)、縮圖
- PDF/Word:作者、修改紀錄、最後編輯者、內嵌的字體、上一個檔案路徑
- 錄音/錄影:時間戳記、裝置型號
網路類¶
- 瀏覽紀錄:你訪問過哪些網域、何時、停留多久、來源連結
- DNS 查詢:你的裝置詢問過哪些網址(多數時候沒加密)
- TLS SNI:HTTPS 連線時,目標網域名仍在握手過程的明文中
- IP 位址:你連線時對外露出的位址,常與地理位置高度相關
系統類¶
- 登入紀錄:你何時登入了什麼服務、用什麼裝置、從哪個 IP
- 金流紀錄:信用卡刷卡時間、地點、金額、轉帳對象
- 裝置感測器:手機的 GPS、Wi-Fi 掃描、藍牙周邊清單(即使你沒主動分享位置)
為什麼 Metadata 比直覺中還危險¶
它揭露你不打算揭露的事¶
「我跟律師通訊,但內容只有我們兩個讀得到」聽起來很嚴密,但「你曾在某個時間點跟某律師事務所長期通訊」這個事實本身,就可能洩漏「你正在處理某件法律問題」。對方不需要讀信,看時間表就夠了。
它能在不同來源之間被交叉¶
單一來源的 metadata 可能無害,幾個來源交叉就完全不同:
- 你的信用卡刷卡紀錄 + 你的手機定位 + 你的 IG 打卡:能還原你一週的活動範圍
- 你的瀏覽紀錄 + 你的相片 EXIF GPS + 你的雲端文件編輯時間:能拼出你的工作流程
廣告業、資料仲介業、執法調閱、八卦網友的肉搜,都靠這種交叉。
它常常被工具預設保留¶
- 相機 App 預設打開 GPS
- 通訊軟體預設保留訊息歷史
- 雲端服務預設多裝置同步並保留版本歷史
- 瀏覽器預設記住所有 cookies、自動填入
「預設值」這件事是最大的 metadata 來源。多數人不會去改設定。
它在加密之外¶
加密能保護內容,但通常不保護外圍。一封 PGP 加密郵件,內容是亂碼,但寄件人、收件人、主旨、時間都看得到。一個 Tor 連線把你跟目的地的對應切開了,但你的網路 ISP 還是看得到「你在用 Tor」這個事實。
一個讓你警覺的對照表¶
對照「如果有人想監視你,他能看到什麼」:
| 事項 | 內容 | Metadata |
|---|---|---|
| 你跟記者通了一通 30 分鐘的加密電話 | 通話內容(加密、看不到) | 你跟某記者今晚通了 30 分鐘電話 |
| 你寄了一封 PGP 加密郵件給律師 | 郵件內文(加密) | 你跟某律師事務所有持續通信 |
| 你用 Signal 發訊息給社運夥伴 | 訊息內容(端對端加密) | 你跟這群人是好友、互動頻率高 |
| 你用 Tor 上某個敏感網站 | 你看了什麼(被 Tor 切開了) | 你的 ISP 看到「你在用 Tor」、被監視站可能看到「Tor 出口節點訪問了某網站」 |
每一行的左欄都被加密好了,右欄通常沒有。對許多威脅來說,右欄已經足夠下判斷。
減少 Metadata 暴露的基本做法¶
完全消除不可能,但可以減少。依成本由低到高:
低成本(任何人現在就能做)¶
- 上傳照片前先去 EXIF(手機內建分享時可選「不分享位置」)
- 文件分享前用「另存新檔」或專門工具去除 metadata
- 通訊軟體選擇預設不蒐集 metadata 的(Signal 比 LINE/Telegram 在這方面好)
- 把通訊軟體的「自動儲存到相簿」、「自動下載媒體」關掉
中成本(要花一點時間設定)¶
- 用密碼管理器,避免每個服務都登入留下行為記錄
- 瀏覽器裝 uBlock Origin 等阻擋追蹤的擴充
- DNS 改用支援加密查詢的服務(DoH/DoT)
- 對固定通訊對象使用一致的工具,避免在多個平台留下對應關係
高成本(特定情境下值得)¶
- 用 Tails 處理敏感工作,每次都從乾淨環境開始
- 走 Tor Browser 訪問可能被觀察的目標
- 為每個身分維持獨立裝置或獨立帳號(不要共用 email、共用裝置)
- 對重要的紙本文件採用線下流程
接下來¶
- 把 metadata 這個維度帶進 威脅模型怎麼想,問自己「我的對手能看到什麼樣的 metadata」
- 看 匿名、隱私、假名、機密性的差別,理解為什麼「機密 ≠ 匿名」
- 想知道金流也是 metadata 的一種,請見 為什麼匿名支付重要
- 工具層的 什麼是 Tor、什麼是 Tails 是減少網路 metadata 的兩個關鍵工具
-
David Cole, "We Kill People Based on Metadata", The New York Review, 2014.05.10. ↩