马赛克效应
马赛克效应指在信息和数据处理过程中,来自不同来源的非敏感数据被组合后,意外地揭示出敏感或机密信息的现象。[1]这种效应的名称来源于马赛克艺术中,由许多小的、独立的图块拼接成一幅完整图像的概念。应用于公共使用数据时,马赛克效应的概念表明,即使是单独看来无害的匿名数据,如果发布了足够多的包含相似或补充信息的数据集,也可能容易被重新识别。[2]
举个例子,有下面一个数据集:
时间 | 到达地点 | ||||||||
---|---|---|---|---|---|---|---|---|---|
20240516 | 中国北京 - 中南海 | 20240516 | 中国北京 - 大兴国际机场 | 20240517 | 中国哈尔滨 - 中俄博览会开幕式 | 20240517 | 中国哈尔滨 - 哈尔滨工业大学 | 20240518 | 俄罗斯莫斯科 |
只要结合俄罗斯总统普京的个人行程和代表团成员名单,即使我们隐去了这位用户的真实姓名,仍然不难将 XXXX 用户关联到普京及其代表团的成员身上。如果辅以其他信息,我们还能更加精确的锁定此人的身份。这种情形被称为马赛克效应,这种技术被称为“推理攻击”