“匿名”就安全了吗?

时间:2022-06-23 02:27:26

“匿名”就安全了吗?

“隐私铁法则”,可以用来快速清除荒谬的想法。

我提笔之时,欧洲议会正热火朝天地讨论出台新的数据保护通用规则。目前网上隐私、数据挖掘、大数据、目标广告、数据驱动的社会科学、政府监听都危如累卵,包括其他关乎网络巨头核心利益的行为,还有政客最阴暗最不受控的野心。

深入布鲁塞尔的活动家甚至表示他们从未遇到过类似情况。成百上千的修正案和提案都一股脑地摆上台面。

提案本身已经很复杂了,不过需要牢记于心的首要法则是,无论何时只要有数据保护提案被提上日程:只要有人提议放松匿名数据分享的规管(将识别信息抹去)或者“假名化”(用假名替代识别信息),都应默认其成立直到被证明不成立。

这种“隐私铁法则”可以用来快速清除荒谬的想法。余下的就是或好或坏的提案,不过至少可行性上得到了提高。

匿名数据是项非常困难的业务。谈到匿名问题,有三个案例被广泛提及:美国在线2006年释放出的匿名搜索数据;马萨诸塞州保险委员会泄露的匿名医疗记录;以及Netflix2006年的录像出租记录。

每个案件中,研究人员都指出如何使用相对简单的手段来再次标识数据,通常只需要跳出每项记录中独一无二的特点即可。医疗记录中有大量烟民,不过一旦你把范围缩小至匿名黑人男性吸烟者,1965年出生,由于关节疼痛被送急诊,就可以轻而易举地将“匿名”记录与另一个“匿名化”的数据库结合,最终得到几乎确定的病患身份。

去匿名化

从上世纪90年代中期以来,去匿名化就成了计算机科学家全力角逐的竞技场,他们运用各种身份再标识的技巧来匿名。自然科学报告最近一篇文章显示,一家欧洲电话公司(很可能是比利时公司)的“匿名”数据可以95%的精确程度再度标识,只要每个人四个数据点(即使仅仅两个数据点,超过一半的用户的身份都可以再度识别)。

有人认为这无伤大雅,在他们看来,隐私已死,或者说不相关,起码不重要。如果你同意这种看法,请牢记:数据保护通用准则之所以会考虑匿名化和假名化是其主体要求所致,他们认为隐私至关重要,值得保护。他们探讨匿名数据集是因为他们相信匿名化可以保护隐私,也就意味着他们是含蓄地表示隐私值得保护。如果政策目标如此,那么政策导向应该与我们理解的现实保持一致。

确实,“大数据”的前提就与数据匿名是相悖的。大数据的理念是,只要数据集足够庞大,任何细微的关系都可以梳理总结。虽然你的多数特质并不局限于个人,但你也有些特点在数据集里与别人并无多少重合——可以是你的阅读习惯和地址的交集;也可以是你的出生地和购车选择的结合。

这些少有重合的特质跳出数据直接指向你,大数据的其他结果也意在如此。如果大数据可以找出罕见疾病患者共有的环境因素,那么就也能找出你所在不同数据集的标识组合,将其整合,就可以将你的身份公之于众。

游说狂热

大量来自于游说者的意见已经出现在修正案中,如此看来,游说者已然成为实际意义上的立法者,只是他们收入更高,且不用参加冗长枯燥的会议。

数据保护通用准则中的第四条款包含了文件中所用定义,而其也是一块关键战场。这项条款明确了“匿名”数据的概念,使其不受法律规章制约,并提出了“假名”信息的新范畴,相比“个人身份信息”其所受限制更少。

于是就似乎合理的匿名化和假名化问题,我向两位计算机科学家咨询他们的看法。Seth David Schoen(电子前沿基金会技术人员)告诉我,“研究显示匿名化远没有看起来那么容易。即使表象匿名也不代表真正地隐藏了身份信息,原因有二,一是个人独特性中隐藏的数学问题,二是有更多的数据库可用了。也就是说关于是否匿名的问题我们必须极其严谨,而不能单纯依赖于直觉感受。”

普林斯顿的Ed Felten(曾是美国联邦贸易委员会成员)表示:“计算机科学这十年内的研究表明多数的数据集是可以再度标识的。即便隐去明显的身份特征,也不足以阻挡身份的再识别。可能把与个人相关的所有数据都抹去也不够。即使数据集包含的全是整合信息,也可以就此推断出个案定的个体信息。”

“如果说我们已经无望摆脱身份识别也未免言过其实。一项新兴技术似乎可以救驾,如果成功,数据集中某些设置可以添加隐私保护数据分析。一般来说,包括行为数据在内的从个人特质提炼出的数据很有可能携带个人信息。”

差别隐私

微软似乎解决有道,他们提出了“差别隐私”的概念,听上去前景相当乐观。Schoen是这样描述的,“研究中我们向原始数据掌握者提出疑问,而回答往往闪烁其词,暧昧模糊,由此不难量化整个过程中隐私受到何种程度的损害,也可以据此决定针对该情况研究是否必要。”

不过这一切也都仅仅是猜测:尽管数据中“模糊地带”究竟有多少是个数量化问题,其对隐私的保护程度最终仍是个人问题,取决于你如何看待个人信息披露及其后果。情况往往是,解决问题的手段包含了诸多涉及社会问题的假设,你不可能仅仅凭借数学手段就下断论隐私是否受到侵害。

这其中的问题即使单单想一想都让人着迷,不过总体来说,如果某项规章轻而易举就断定数据的“匿名性”或“假名性”,那么这项规章就与计算机科学中最精华的理论严重脱节了。一旦你在规章制度里发现类似情况,你就能明白拟定该制度的人或者不够重视隐私保护,或者根本不够格做制度制定者。不过无论是哪一种情况,都该足够引起我们警觉了。

上一篇:找出你身上6把止痛“钥匙” 下一篇:库克的“烂苹果”