匿名化与共享个体患者数据

时间:2022-03-23 02:53:00

匿名化与共享个体患者数据

为非医疗目的(如研究)共享个体患者数据的压力越来越大1-3。例如,研究资助机构非常鼓励受资助者共享其项目所收集到的数据4-6。为健康研究目的共享个体患者数据所带来的好处包括:确保结果的可说明性以及研究结果的有效性,使得研究人员可以更有效地在他人成果的基础上开展工作,并且对个体患者数据进行荟萃(meta)分析从而总结出证据,同时通过对现有数据的再次使用从而减少研究项目的负担7。然而在许多情况下,对患者隐私的担忧被认为是获取个体患者数据的主要障碍3,8。

在两种法律机制下可以允许数据管理者为非医疗目的共享患者数据(除非在法律上得到豁免):(a)知情同意,(b)匿名化。如果数据最初是在医学情境下采集的,则往往没有提前获取关于预期之外其他分析的知情同意。追溯并获取大量患者的知情同意是不切实际的,而且有证据表明,同意者与非同意者的系统性同意偏向在重要特征上存在差异9-11。因此,依赖知情同意作为共享数据的首要机制是受到质疑的。至于第二种选择,有证据显示,许多研究伦理委员会将允许在数据匿名化情况下,为研究目的共享患者数据而不需要获取知情同意12。(“去标识”这一术语较常在北美使用,而“匿名化”较常在欧洲使用;在本文中,我们把这两个术语视为等同。)

包括北美和欧洲在内的许多司法辖区并不把匿名化的健康数据指定为个人信息7。因此,这些数据不再受隐私法保护,可以为任何其他目的而使用和公开。然而,要求这些匿名化的数据只为合法目的使用,其使用方式不会令患者感到惊讶,而且不会带有歧视或影响声誉。这种要求在欧盟内已经明确化13,而在欧盟外已被纳入隐私伦理框架14。

当为其他目的共享患者数据时要特别注意患者信任。虽然患者支持他们的数据为研究目的而使用7,但是他们往往期望这些数据能够被充分地匿名化。信任是非常重要的,因为有证据表明,当患者担心他们的健康信息将被如何共享时,患者可能会采取保护隐私的行为,比如说谎或不寻求治疗15。

隐私法案和条例中对匿名的定义并没有为健康信息匿名化提供可遵循的操作性的方法。甚至连匿名化和去标识数据的概念也是模糊不清的。例如,欧盟数据保护指令(European Data Protection Directive)95/46/EC声明,“个人数据指的是与已识别或可识别的自然人(数据主体)相关的任何信息;可识别的人是可以被直接或间接识别的,特别是参照其身份证号码或者针对其身体、心理、精神、经济、文化或社会身份中一个或多个特异性因素”;而美国1996年健康保险携带和责任法案(HIPPA)的隐私条例中注明,“不能鉴别个人身份且没有合理根据认为可以被用来鉴别个人身份的健康信息,不是个体可识别健康信息。”这种模糊性导致了在对健康数据进行实际的匿名化操作时出现差异和不一致。

被称为数据公开控制的统计学分支已经形成了围绕匿名化技术的实质性知识主体16,17。在这篇文章中,我们将阐述健康数据匿名化背后的关键概念和原则,力图找到共同的语境,进而缓解当前的不一致状况。我们将使用安大略省(加拿大)出生登记数据集(被称作BORN)作为一个实例来解释多方面的要点。BORN是该省所有出生人口登记数据库。数据采集自医院、诊所、助产士和省级新生儿筛查实验室,并被存储在数据库中。随后,这些数据为研究和公共卫生目的而被使用和公开18。

定义

从技术观点上来看,确保匿名等同于确保识别出记录拥有者正确身份的几率非常小。该几率还可能取决于其他因素,比如那些想要重新识别记录拥有者身份的不良目的所需要的技能及其可获取的资源7。当数据被共享时,我们不可能确保被再次识别的几率为零,但是有可能确保该几率非常小。

现有的标准和指南倾向于把数据集包含的变量分成两组:直接标识符和准标识符。直接标识符的特点是能够直接识别或与对应个体身份,比如个人姓名、邮箱地址、电话号码和社会保险号码。准标识符可以间接鉴别个人身份,比如出生日期、死亡日期、门诊访问日期、住宅邮政编码以及种族。准标识符包括人口统计学与社会经济学信息。在匿名化过程中,必须对这两类变量进行处理。

在BORN案例中,诸如母亲姓名和医疗保险号码这些变量都被指定为直接标识符。这些变量在登记前就要被去除。有时需要保有唯一标识符(如病历号)以链接属于同一母亲的所有记录(例如,为了追溯多个新生儿)。因为病历号也常被认为是患者标识符,所以它被转变为一种假名。这些数据便被称为“假名化”数据。假名化数据在欧盟数据保护指令95/46/EC19中仍被看作是个人信息,不应看作匿名数据。

迄今为止所有已知的成功进行身份重新识别攻击的案例(包括基因数据)都是在假名化数据基础上操作的20。不良企图实施这样的攻击以确定被共享的数据集中到个体的身份。已知的重新识别攻击几乎都是由研究人员和媒体所实施20。

人们认为媒体的动机是为了显示共享数据是不安全的(这样可以制造一个好的新闻),或者是为了联系个体及其家属以进行新闻报道。学者们实施这些攻击是为了发表关于攻击数据库的新型计算算法,同时显示现有数据库的缺陷。一般而言,这种为了发现系统和数据库缺陷的“白帽黑客”是得到认可的。我们思考如下两个例子。

由媒体发起重新识别攻击的例子是一个加拿大国家广播公司重新识别了加拿大卫生部的药物不良事件数据库中的个人身份。其目的是报道与某种药物相关的不良事件,而且他们想采访被重新识别身份的死者家属21。重新识别攻击利用公开可及的讣告来比对年龄、居住地、死亡日期以确定这个26岁死于服用某种药物的妇女身份。

最近发生了一起由一位记者和一位学者合作实施的重新识别攻击,其对象是出院数据库。美国华盛顿州卫生部共享了假名化数据库,却对获取数据以及数据接收者如何处理数据仅设置了很少的限制。在这起攻击中,对手利用了报纸文章中关于车辆事故的信息以及涉及名人住院治疗的报道,以重新识别出院数据库中的个人身份22,23。其实现方法是将出院数据与公开可及的电话号码目录和选举注册列表相结合。特别的是,在这起攻击中对手利用了入院日期、损伤代码、患者年龄、收治于哪家医院、患者的邮政编码、是否在周末入院以及患者的性别和种族等信息。攻击该数据库总共利用了11个准标识符。

上文所举出的两个重新识别攻击的成功案例都利用了准标识符。因此,保护准标识符与保护直接标示符同样重要。

数据共享的类型

为其他目的共享数据有3个一般方式:公开、准公开和非公开。

公开数据所设的限制最小。这类公开数据通常在网络上可以被任何人下载,而且下载是免费的或仅需支付象征性的费用。许多国家统计部门把人口普查和国家调查数据作为公开数据。有些调查数据中包含了健康信息。人们可以获取国际卒中试验24数据库中公开可及的临床试验数据,以及Dryad在线开放式数据库的数据25,26。

准公开数据以“使用条款”的形式设有附加限制。这是一份数据接收者所签署(或点击,如果是在网上)的合同。使用条款常包括禁止重新识别数据、联系任何患者、将数据与其他数据库相链接、将数据共享给任何第三方。同时,数据接收者必须进行注册,这样数据管理者便可以知道他们的身份。数据竞赛可以作为解释准公开数据使用的例子。例如,Heritage Provider Prize是一个奖金为300万美元的竞赛,获胜者使用Heritage Provider Network提供的准公开数据库建立关于再次入院的预测模型27。2013年Cajun代码节28是另一个奖金为25 000美金的竞赛,参赛者所制作的软件应用便是利用准公开数据以辅助患者和医生做出决策。在这两个竞赛中,所有参赛者在获准访问数据前都必须进行注册并同意使用条款。

非公开数据所设的限制最多。在这种情况下,数据接收者需要签署全面合同,在上述具体要求之外还包括数据接收者需要设置的一系列安全和隐私控制,比如对他们的电脑进行加密,以及为处理数据的分析师提供隐私培训。数据管理者也保有审核数据接收者的权利,以确保他们遵守所有条款。

上述3个案例中的数据都需要进行匿名化处理。然而可接受的重新识别几率各不相同。对于公开数据来说几率必须非常小,因为没有其他可施加的控制。而对非公开数据来说几率更大些也是可接受的,因为可以实施其他安全、隐私和契约性控制。图1中诠释了这种控制平衡以对风险进行管理。

上文所述的差别意味着同样的数据可以用不同的方式进行充分匿名化,这取决于数据的情境。根据数据情境来决定如何进行匿名化处理以符合现有的最佳实践与法律指南29-31。

数据机制同样也存在差异。例如,个体患者数据可以被提供给研究人员进行下载;或者该研究人员可以通过门户网站访问个体患者数据,但是不能下载任何数据。对于后者,所有的分析都必须在门户网站上进行。一些数据管理者要求研究人员身处安全室内才能访问个体患者数据。这些机制中每一种都对研究人员施以不同的控制,因而需要相应设置可接受的重新识别几率。

评估重新识别几率

上述平衡是度量重新识别几率的前提。现在已经形成了多个参数用来度量重新识别几率。这些参数可以适用于覆盖大范围人群的数据库,或用于来自人群的样本7。BORN是人群数据库的案例,因为它包含了安大略省的所有出生记录。在这种情况下,重新识别的几率可以从数据中直接度量出来。样本数据集,举个例子来说可以是对糖尿病患者的临床试验(因为只有全部糖尿病患者中的一个子集将参与该试验)。对于临床试验数据集,重新识别的几率只能从数据中估计出来。

首先,重新识别几率取决于两个因素:(a)共享数据集中包含何种准标识符;(b)数据被摄动(或修改)的程度。

在BORN中,婴儿出生日期和性别,以及母亲的出生日期和邮政编码被指定为准标识符。对手可以通过多种方式发现这些准标识符:出生通常会被宣布、住宅信息可以从白页(加拿大和美国电话、地址录)上获取,而基本的人口学信息一般能够从各种公开资源中获取32。我们可以图解准标识符如何影响重新识别几率。

表1显示了BORN中不同准标识符组合所对应的重新识别几率。我们使用的数据库包含了2005-2011年间919 710条出生记录。该几率是变化的,这取决于所的数据中包含了何种准标识符。一般来说,的数据中所包含的准标识符越多,被重新识别的几率越大。一些准标识符有着实质性的影响,例如母亲出身日期后的6位邮政编码,然而其他准标识符的影响很小或没有影响(比如婴儿性别)。如果数据中包含所有的4个准标识符,那么被重新识别的几率将非常高,因为几乎所有的新生儿在这种细节程度上都是唯一的。

数据转换和数据质量

如果认为被重新识别的几率太高,那么可以采用多种微扰技术来降低该几率14。例如,如果表1中所有的准标识符需要在未经微扰干预的情况下进行共享,那么差不多可以确定会被重新识别。

最简单的方法之一是通过归纳来减小数据范围的精确性。这是在实践中经常使用的方法。举个例子,出生日期可以很自然地被归纳为出生年月。大多数情况下,归纳法是可接受的保护策略,因为它能够符合数据分析需要。例如,如果一项分析仅需要母亲的出生年份数据,那么对母亲的出生日期进行归纳便可以减小被重新识别的几率,同时又能够满足分析要求。

表2描述了对BORN中准标识符进行各种归纳后的重新识别几率。对数据小小的改变可以从实质上减小被重新识别的几率。在确定选择何种归纳法时,需要结合两种方法:(a)数据分析师从主观上判断某种归纳法是否会影响对数据的分析;(b)应用规范量度来评估数据效用,例如结果记录中的熵10。

在表2中,方案S1将母亲出生日期的精确度降为年份,将邮政编码的精确度将为前3位,但是重新识别几率仍然非常高。相反,方案S5和S6的重新识别几率最低,但是邮政编码被删减为只剩首位。这妨碍了最重要的地理空间分析。保留了地理位置信息的方案中重新识别几率最低的是S8,其中婴儿的出生日期转变为季节和年份,而母亲年龄被划分为≤19、20?30、30?40以及≥50岁。然而,S8中的转变减弱了数据的效用,因为围绕婴儿准确年龄的详细内容计算不出来,而3位邮政编码也限制了地理空间分析。

可以使用比简单归纳更好的摄动(perturbation)分析方法。这些计算方法可以减少数据失真(比如可以允许比3位邮政编码更高的粒度),同时可以提高数据质量14,33。

在实践中,如果数据库中含有许多准标识符,运用同种方式归纳所有记录值这类技术产生的数据库不太可能具有分析价值。表2中仅仅包含4个准标识符,其可接受的归纳法差不多达到数据效用的底限。然而正如前文所述,最近的重新识别攻击利用了多达11个准标识符22,23。为了保持数据的效用,可以使用更加复杂的方法,能够在匿名化过程中保留日期和地理信息14。

何时该停止

数据管理者所需要回答的一个实际问题是,多大程度的归纳是足够的?例如,表2中所有方案的重新识别几率都小于0.2,这对于风险预期来说是可接受的吗?过去几十年间,关于公开和非公开数据可接受的再识别可能性,有一些法律法规和实践方面的先例7。这些先例提供了可接受阈值。总的来说,可接受几率范围是0.33到0.057。

在一些实例中,匿名化方案没有包括风险评估,也没有设置阈值来确保重新识别几率在可接受范围内34-36。例如,这些方案给出了应当从数据库中移除的准标识符列表。这些方法不能确保重新识别几率对任一单个数据库来说是足够小的,因为实际的准标识符可能与列表中的有所不同。此外,这种做法可能会导致数据库被过度摄动。因此,该方法不宜用于复杂数据库。知道何时停止对数据的摄动,对于平衡隐私保护与数据效用来说是非常重要的。

结论

通过对重新识别风险进行评估,可以决定对不同类型的数据公开进行何种程度的匿名化处理。能够充分维持数据质量的摄动法要求以数据为中心,而不是简单的归纳法。匿名法并不能确保被重新识别的几率为零,而这不是任何司法辖区的隐私法案和条例所设定的阈值。现有的有力判例可以为匿名化数据选择合适的几率阈值。需要对匿名化标准,其能为数据管理者提供操作指南,并促进匿名化应用的一致性。

上一篇:专家团队入驻北大国际医院 下一篇:逐力“人体芯片”