跳转至

Metadata 是什么,为什么重要

「我用了端对端加密,没人读得到我的消息,所以是安全的吧?」前半段没问题,问题出在后半段。Metadata 就是后半段缺的那一块。

Metadata 字面意思是「数据的数据」。你打了一通电话,通话内容是数据,通话对象、时间、地点、长度就是 Metadata。内容虽然加密了没人读,但光是 metadata 已经足以还原一个人的社交网络、行为模式、生活轨迹。对许多威胁模型来说,metadata 才是真正的破口。

这页解释 metadata 从哪里来、为什么比直觉中还危险,以及减少 metadata 暴露的几个基本做法。

一句被引用很多次的话

「我们根据 Metadata 杀人。」

这是前美国国家安全局(NSA)与中央情报局(CIA)局长 Michael Hayden 在 2014 年的公开谈话。他要说的是:在很多情境下,光是知道「谁跟谁通讯、何时何地」就足以下决定,根本不需要读内容1

这句话听起来吓人,但它揭露的事实对日常生活同样适用。Metadata 不是只有国家级监控才在意的东西。广告商、平台算法、保险业、在追踪前任的人、想肉搜你的网友,都用同一份原料。

Metadata 从哪里来

Metadata 是各种日常行为的副产品,散布在各处,没有单一集中的来源。常见来源:

通讯类

  • 电话:拨出与接收的号码、时间、通话长度、基站位置
  • 短信:寄件人、收件人、时间、长度
  • 电子邮件:寄件人、收件人、副本、时间、信件大小、信件主旨(多数情况不被加密)
  • 即时通讯:谁跟谁是好友、消息往返的频率与时间、群组成员清单

注意:就算内容是端对端加密,上面这些通常不加密。Signal 算是少数刻意减少这类 metadata 收集的工具,但仍无法完全消除(例如注册绑手机就泄漏一个身份线索)。

文件类

  • 照片:EXIF 信息(拍摄时间、相机型号、GPS 坐标)、缩图
  • PDF/Word:作者、修改记录、最后编辑者、内嵌的字体、上一个文件路径
  • 录音/录影:时间戳记、装置型号

网络类

  • 浏览记录:你访问过哪些域名、何时、停留多久、来源链接
  • DNS 查询:你的装置询问过哪些网址(多数时候没加密)
  • TLS SNI:HTTPS 连线时,目标域名仍在握手过程的明文中
  • IP 地址:你连线时对外露出的地址,常与地理位置高度相关

系统类

  • 登录记录:你何时登录了什么服务、用什么装置、从哪个 IP
  • 金流记录:信用卡刷卡时间、地点、金额、转账对象
  • 装置感应器:手机的 GPS、Wi-Fi 扫描、蓝牙周边清单(即使你没主动分享位置)

为什么 Metadata 比直觉中还危险

它揭露你不打算揭露的事

「我跟律师通讯,但内容只有我们两个读得到」听起来很严密,但「你曾在某个时间点跟某律师事务所长期通讯」这个事实本身,就可能泄漏「你正在处理某件法律问题」。对方不需要读信,看时间表就够了。

它能在不同来源之间被交叉

单一来源的 metadata 可能无害,几个来源交叉就完全不同:

  • 你的信用卡刷卡记录 + 你的手机定位 + 你的 IG 打卡:能还原你一周的活动范围
  • 你的浏览记录 + 你的相片 EXIF GPS + 你的云端文件编辑时间:能拼出你的工作流程

广告业、数据仲介业、执法调阅、八卦网友的肉搜,都靠这种交叉。

它常常被工具默认保留

  • 相机 App 默认打开 GPS
  • 通讯软件默认保留消息历史
  • 云端服务默认多装置同步并保留版本历史
  • 浏览器默认记住所有 cookies、自动填入

「默认值」这件事是最大的 metadata 来源。多数人不会去改设置。

它在加密之外

加密能保护内容,但通常不保护外围。一封 PGP 加密邮件,内容是乱码,但寄件人、收件人、主旨、时间都看得到。一个 Tor 连线把你跟目的地的对应切开了,但你的网络 ISP 还是看得到「你在用 Tor」这个事实。

一个让你警觉的对照表

对照「如果有人想监视你,他能看到什么」:

事项 内容 Metadata
你跟记者通了一通 30 分钟的加密电话 通话内容(加密、看不到) 你跟某记者今晚通了 30 分钟电话
你寄了一封 PGP 加密邮件给律师 邮件内文(加密) 你跟某律师事务所有持续通信
你用 Signal 发消息给社运伙伴 消息内容(端对端加密) 你跟这群人是好友、互动频率高
你用 Tor 上某个敏感网站 你看了什么(被 Tor 切开了) 你的 ISP 看到「你在用 Tor」、被监视站可能看到「Tor 出口节点访问了某网站」

每一行的左栏都被加密好了,右栏通常没有。对许多威胁来说,右栏已经足够下判断。

减少 Metadata 暴露的基本做法

完全消除不可能,但可以减少。依成本由低到高:

低成本(任何人现在就能做)

  • 上传照片前先去 EXIF(手机内建分享时可选「不分享位置」)
  • 文件分享前用「另存新档」或专门工具去除 metadata
  • 通讯软件选择默认不收集 metadata 的(Signal 比 LINE/Telegram 在这方面好)
  • 把通讯软件的「自动储存到相簿」、「自动下载媒体」关掉

中成本(要花一点时间设置)

  • 用密码管理器,避免每个服务都登录留下行为记录
  • 浏览器装 uBlock Origin 等阻挡追踪的扩展
  • DNS 改用支援加密查询的服务(DoH/DoT)
  • 对固定通讯对象使用一致的工具,避免在多个平台留下对应关系

高成本(特定情境下值得)

  • 用 Tails 处理敏感工作,每次都从干净环境开始
  • 走 Tor Browser 访问可能被观察的目标
  • 为每个身份维持独立装置或独立账号(不要共用 email、共用装置)
  • 对重要的纸本文件采用线下流程

接下来


  1. David Cole, "We Kill People Based on Metadata", The New York Review, 2014.05.10.