Metadata 是什么,为什么重要¶
「我用了端对端加密,没人读得到我的消息,所以是安全的吧?」前半段没问题,问题出在后半段。Metadata 就是后半段缺的那一块。
Metadata 字面意思是「数据的数据」。你打了一通电话,通话内容是数据,通话对象、时间、地点、长度就是 Metadata。内容虽然加密了没人读,但光是 metadata 已经足以还原一个人的社交网络、行为模式、生活轨迹。对许多威胁模型来说,metadata 才是真正的破口。
这页解释 metadata 从哪里来、为什么比直觉中还危险,以及减少 metadata 暴露的几个基本做法。
一句被引用很多次的话¶
「我们根据 Metadata 杀人。」
这是前美国国家安全局(NSA)与中央情报局(CIA)局长 Michael Hayden 在 2014 年的公开谈话。他要说的是:在很多情境下,光是知道「谁跟谁通讯、何时何地」就足以下决定,根本不需要读内容1。
这句话听起来吓人,但它揭露的事实对日常生活同样适用。Metadata 不是只有国家级监控才在意的东西。广告商、平台算法、保险业、在追踪前任的人、想肉搜你的网友,都用同一份原料。
Metadata 从哪里来¶
Metadata 是各种日常行为的副产品,散布在各处,没有单一集中的来源。常见来源:
通讯类¶
- 电话:拨出与接收的号码、时间、通话长度、基站位置
- 短信:寄件人、收件人、时间、长度
- 电子邮件:寄件人、收件人、副本、时间、信件大小、信件主旨(多数情况不被加密)
- 即时通讯:谁跟谁是好友、消息往返的频率与时间、群组成员清单
注意:就算内容是端对端加密,上面这些通常不加密。Signal 算是少数刻意减少这类 metadata 收集的工具,但仍无法完全消除(例如注册绑手机就泄漏一个身份线索)。
文件类¶
- 照片:EXIF 信息(拍摄时间、相机型号、GPS 坐标)、缩图
- PDF/Word:作者、修改记录、最后编辑者、内嵌的字体、上一个文件路径
- 录音/录影:时间戳记、装置型号
网络类¶
- 浏览记录:你访问过哪些域名、何时、停留多久、来源链接
- DNS 查询:你的装置询问过哪些网址(多数时候没加密)
- TLS SNI:HTTPS 连线时,目标域名仍在握手过程的明文中
- IP 地址:你连线时对外露出的地址,常与地理位置高度相关
系统类¶
- 登录记录:你何时登录了什么服务、用什么装置、从哪个 IP
- 金流记录:信用卡刷卡时间、地点、金额、转账对象
- 装置感应器:手机的 GPS、Wi-Fi 扫描、蓝牙周边清单(即使你没主动分享位置)
为什么 Metadata 比直觉中还危险¶
它揭露你不打算揭露的事¶
「我跟律师通讯,但内容只有我们两个读得到」听起来很严密,但「你曾在某个时间点跟某律师事务所长期通讯」这个事实本身,就可能泄漏「你正在处理某件法律问题」。对方不需要读信,看时间表就够了。
它能在不同来源之间被交叉¶
单一来源的 metadata 可能无害,几个来源交叉就完全不同:
- 你的信用卡刷卡记录 + 你的手机定位 + 你的 IG 打卡:能还原你一周的活动范围
- 你的浏览记录 + 你的相片 EXIF GPS + 你的云端文件编辑时间:能拼出你的工作流程
广告业、数据仲介业、执法调阅、八卦网友的肉搜,都靠这种交叉。
它常常被工具默认保留¶
- 相机 App 默认打开 GPS
- 通讯软件默认保留消息历史
- 云端服务默认多装置同步并保留版本历史
- 浏览器默认记住所有 cookies、自动填入
「默认值」这件事是最大的 metadata 来源。多数人不会去改设置。
它在加密之外¶
加密能保护内容,但通常不保护外围。一封 PGP 加密邮件,内容是乱码,但寄件人、收件人、主旨、时间都看得到。一个 Tor 连线把你跟目的地的对应切开了,但你的网络 ISP 还是看得到「你在用 Tor」这个事实。
一个让你警觉的对照表¶
对照「如果有人想监视你,他能看到什么」:
| 事项 | 内容 | Metadata |
|---|---|---|
| 你跟记者通了一通 30 分钟的加密电话 | 通话内容(加密、看不到) | 你跟某记者今晚通了 30 分钟电话 |
| 你寄了一封 PGP 加密邮件给律师 | 邮件内文(加密) | 你跟某律师事务所有持续通信 |
| 你用 Signal 发消息给社运伙伴 | 消息内容(端对端加密) | 你跟这群人是好友、互动频率高 |
| 你用 Tor 上某个敏感网站 | 你看了什么(被 Tor 切开了) | 你的 ISP 看到「你在用 Tor」、被监视站可能看到「Tor 出口节点访问了某网站」 |
每一行的左栏都被加密好了,右栏通常没有。对许多威胁来说,右栏已经足够下判断。
减少 Metadata 暴露的基本做法¶
完全消除不可能,但可以减少。依成本由低到高:
低成本(任何人现在就能做)¶
- 上传照片前先去 EXIF(手机内建分享时可选「不分享位置」)
- 文件分享前用「另存新档」或专门工具去除 metadata
- 通讯软件选择默认不收集 metadata 的(Signal 比 LINE/Telegram 在这方面好)
- 把通讯软件的「自动储存到相簿」、「自动下载媒体」关掉
中成本(要花一点时间设置)¶
- 用密码管理器,避免每个服务都登录留下行为记录
- 浏览器装 uBlock Origin 等阻挡追踪的扩展
- DNS 改用支援加密查询的服务(DoH/DoT)
- 对固定通讯对象使用一致的工具,避免在多个平台留下对应关系
高成本(特定情境下值得)¶
- 用 Tails 处理敏感工作,每次都从干净环境开始
- 走 Tor Browser 访问可能被观察的目标
- 为每个身份维持独立装置或独立账号(不要共用 email、共用装置)
- 对重要的纸本文件采用线下流程
接下来¶
- 把 metadata 这个维度带进 威胁模型怎么想,问自己「我的对手能看到什么样的 metadata」
- 看 匿名、隐私、假名、机密性的差别,理解为什么「机密 ≠ 匿名」
- 想知道金流也是 metadata 的一种,请见 为什么匿名支付重要
- 工具层的 什么是 Tor、什么是 Tails 是减少网络 metadata 的两个关键工具
-
David Cole, "We Kill People Based on Metadata", The New York Review, 2014.05.10. ↩