跳轉到

Metadata 是什麼,為什麼重要

「我用了端對端加密,沒人讀得到我的訊息,所以是安全的吧?」前半段沒問題,問題出在後半段。Metadata 就是後半段缺的那一塊。

Metadata 字面意思是「資料的資料」。你打了一通電話,通話內容是資料,通話對象、時間、地點、長度就是 Metadata。內容雖然加密了沒人讀,但光是 metadata 已經足以還原一個人的社交網絡、行為模式、生活軌跡。對許多威脅模型來說,metadata 才是真正的破口。

這頁解釋 metadata 從哪裡來、為什麼比直覺中還危險,以及減少 metadata 暴露的幾個基本做法。

一句被引用很多次的話

「我們根據 Metadata 殺人。」

這是前美國國家安全局(NSA)與中央情報局(CIA)局長 Michael Hayden 在 2014 年的公開談話。他要說的是:在很多情境下,光是知道「誰跟誰通訊、何時何地」就足以下決定,根本不需要讀內容1

這句話聽起來嚇人,但它揭露的事實對日常生活同樣適用。Metadata 不是只有國家級監控才在意的東西。廣告商、平台演算法、保險業、在追蹤前任的人、想肉搜你的網友,都用同一份原料。

Metadata 從哪裡來

Metadata 是各種日常行為的副產品,散佈在各處,沒有單一集中的來源。常見來源:

通訊類

  • 電話:撥出與接收的號碼、時間、通話長度、基地台位置
  • 簡訊:寄件人、收件人、時間、長度
  • 電子郵件:寄件人、收件人、副本、時間、信件大小、信件主旨(多數情況不被加密)
  • 即時通訊:誰跟誰是好友、訊息往返的頻率與時間、群組成員清單

注意:就算內容是端對端加密,上面這些通常不加密。Signal 算是少數刻意減少這類 metadata 蒐集的工具,但仍無法完全消除(例如註冊綁手機就洩漏一個身分線索)。

檔案類

  • 照片:EXIF 資訊(拍攝時間、相機型號、GPS 座標)、縮圖
  • PDF/Word:作者、修改紀錄、最後編輯者、內嵌的字體、上一個檔案路徑
  • 錄音/錄影:時間戳記、裝置型號

網路類

  • 瀏覽紀錄:你訪問過哪些網域、何時、停留多久、來源連結
  • DNS 查詢:你的裝置詢問過哪些網址(多數時候沒加密)
  • TLS SNI:HTTPS 連線時,目標網域名仍在握手過程的明文中
  • IP 位址:你連線時對外露出的位址,常與地理位置高度相關

系統類

  • 登入紀錄:你何時登入了什麼服務、用什麼裝置、從哪個 IP
  • 金流紀錄:信用卡刷卡時間、地點、金額、轉帳對象
  • 裝置感測器:手機的 GPS、Wi-Fi 掃描、藍牙周邊清單(即使你沒主動分享位置)

為什麼 Metadata 比直覺中還危險

它揭露你不打算揭露的事

「我跟律師通訊,但內容只有我們兩個讀得到」聽起來很嚴密,但「你曾在某個時間點跟某律師事務所長期通訊」這個事實本身,就可能洩漏「你正在處理某件法律問題」。對方不需要讀信,看時間表就夠了。

它能在不同來源之間被交叉

單一來源的 metadata 可能無害,幾個來源交叉就完全不同:

  • 你的信用卡刷卡紀錄 + 你的手機定位 + 你的 IG 打卡:能還原你一週的活動範圍
  • 你的瀏覽紀錄 + 你的相片 EXIF GPS + 你的雲端文件編輯時間:能拼出你的工作流程

廣告業、資料仲介業、執法調閱、八卦網友的肉搜,都靠這種交叉。

它常常被工具預設保留

  • 相機 App 預設打開 GPS
  • 通訊軟體預設保留訊息歷史
  • 雲端服務預設多裝置同步並保留版本歷史
  • 瀏覽器預設記住所有 cookies、自動填入

「預設值」這件事是最大的 metadata 來源。多數人不會去改設定。

它在加密之外

加密能保護內容,但通常不保護外圍。一封 PGP 加密郵件,內容是亂碼,但寄件人、收件人、主旨、時間都看得到。一個 Tor 連線把你跟目的地的對應切開了,但你的網路 ISP 還是看得到「你在用 Tor」這個事實。

一個讓你警覺的對照表

對照「如果有人想監視你,他能看到什麼」:

事項 內容 Metadata
你跟記者通了一通 30 分鐘的加密電話 通話內容(加密、看不到) 你跟某記者今晚通了 30 分鐘電話
你寄了一封 PGP 加密郵件給律師 郵件內文(加密) 你跟某律師事務所有持續通信
你用 Signal 發訊息給社運夥伴 訊息內容(端對端加密) 你跟這群人是好友、互動頻率高
你用 Tor 上某個敏感網站 你看了什麼(被 Tor 切開了) 你的 ISP 看到「你在用 Tor」、被監視站可能看到「Tor 出口節點訪問了某網站」

每一行的左欄都被加密好了,右欄通常沒有。對許多威脅來說,右欄已經足夠下判斷。

減少 Metadata 暴露的基本做法

完全消除不可能,但可以減少。依成本由低到高:

低成本(任何人現在就能做)

  • 上傳照片前先去 EXIF(手機內建分享時可選「不分享位置」)
  • 文件分享前用「另存新檔」或專門工具去除 metadata
  • 通訊軟體選擇預設不蒐集 metadata 的(Signal 比 LINE/Telegram 在這方面好)
  • 把通訊軟體的「自動儲存到相簿」、「自動下載媒體」關掉

中成本(要花一點時間設定)

  • 用密碼管理器,避免每個服務都登入留下行為記錄
  • 瀏覽器裝 uBlock Origin 等阻擋追蹤的擴充
  • DNS 改用支援加密查詢的服務(DoH/DoT)
  • 對固定通訊對象使用一致的工具,避免在多個平台留下對應關係

高成本(特定情境下值得)

  • 用 Tails 處理敏感工作,每次都從乾淨環境開始
  • 走 Tor Browser 訪問可能被觀察的目標
  • 為每個身分維持獨立裝置或獨立帳號(不要共用 email、共用裝置)
  • 對重要的紙本文件採用線下流程

接下來


  1. David Cole, "We Kill People Based on Metadata", The New York Review, 2014.05.10.