基于SVM和CRF双层分类器的英文电子病历去隐私化

时间:2022-10-21 02:51:56

基于SVM和CRF双层分类器的英文电子病历去隐私化

摘要:去隐私化是2014 i2b2/UTHealth中的一个任务,目的在于识别并移除电子病历中的隐私信息。本文提出了一种基于支持向量机(SVMs)和条件随机场(CRFs)双层分类模型的去隐私化方法,经过预处理将病历文本进行词切分(tokenize)处理,并在此基础上抽取4类特征,训练SVM模型对隐私信息实体边界进行划分并将结果作为特征添加到特征集中,通过CRF训练多分类器,并通过该分类器对各个类别的隐私信息进行识别。实验表明双层分类模型对于隐私信息识别是有效的,结果F值达到0.9110。

关键词:电子病历; 去隐私化; SVM; CRF

中图分类号: TP391

文献标志码: A

文章编号:]2095-2163(2016)06-0017-04

0引言

电子病历是指医务人员在医疗活动过程中,使用医疗信息系统建构生成的文字、符号、图表、图形、数据、影像等数字化信息,并能实现存储、管理、传输和重现的医疗记录\[1\]。电子病历中包含大量医疗知识,因而是十分重要的研究资源。但除了医疗知识外,电子病历中还存在很多隐私信息。隐私信息是指患者在接受医疗服务时特别涉及的有关患者自身,并不愿他人知悉的个人情况,包括患者的个人基本信息、家庭住址、联系方式、经济状况以及健康状况、所患疾病、既往病史、家族病史等有关信息\[2\]。为保护这些隐私信息,对电子病历进行去隐私化即已成为现实发展必备的研究需要。对于不同的数据,隐私信息的类别会有所不同。2006年i2b2评测首次引入电子病历的去隐私化任务,数据中主要包含医生姓名、患者姓名、年龄、日期、位置、医院、ID和电话号码8类隐私信息\[3\]。展开的研究主要是基于2014 i2b2评测的去隐私化任务,隐私信息共分为姓名、职业、位置、年龄、日期、联系方式以及IDs这7个主要类别,其中一些类别又划分为多个子类别,总计28类隐私信息。

去隐私化分为识别隐私信息和移除隐私信息两个部分,其中重点以及难点在于对隐私信息的识别。将隐私信息视为实体,可将隐私信息的识别转化为命名实体识别的任务,常用的方法可重点描述为基于规则的方法、基于机器学习的方法以及规则与机器学习相结合的方法。Meystre\[4\]通过分析多个去隐私系统得出结论:一般情况下,基于规则的方法对于识别医疗文档中少见稀有的隐私信息具有更好效果,基于机器学习的方法对于识别尚未出现在字典里的隐私信息呈现有较好效果。在基于规则的方法中,Neamatullah\[5\]提出了一种在护理记录(nursing notes)上基于模式匹配的去隐私化系统,使用了字典查询、正则表达式以及简单的启发式的方法来定位隐私信息。Beckwith\[6\]开发了一个基于规则的去隐私化工具HMS,而且构建了50条正则表达式用来识别日期、电话号码和社会保险号码等隐私信息,并通过前缀、后缀以及人口普查数据库来匹配姓名。Friedlin\[7\]开发了Medical去隐私化系统,其中使用了正则表达式,电子病历表头中的特定患者信息以及姓名与位置信息的字典来匹配并移除隐私信息。基于规则的方法一般有较高的召回率,但准确率较低,而且在构建规则上将耗费可观人力。与基于规则的方法相比,基于机器学习的方法应用更为广泛。Wellner\[3\]利用丰富的特征训练了CRF模型,并使用正则表达式提供辅助,使得模型对隐私信息识别效果臻至优良。Uzuner\[8\]开发了去隐私化系统De-id,通过将去隐私化视为一个多分类问题,使用了局部特征训练SVM分类器来识别隐私信息。Szarvas\[9\]提出了一个基于决策树的迭代学习方法识别隐私信息,除了一些基本特征外,还利用了出院小结中的结构化信息来提升识别隐私信息的效果。Bostrm\[10\]等提出了一种基于随C森林的主动学习方法,将瑞典语电子病历文本中的词划分为8种类别的隐私信息与非隐私信息。单纯基于机器学习的方法对于训练样本中出现较少的隐私信息识别能力较差,所以多数基于机器学习的方法都用到了规则以及一些实体的字典来提升识别的精度。

2014年的i2b2评测举办方为参与人员提供了1 304份英文电子病历,其中包含姓名、职业、位置等28类隐私信息,并由领域专家替换了原隐私信息内容,而且又标注出了更改后的隐私信息,要求参与者对此隐私信息进行识别。与2006年的去隐私化任务相比,本次去隐私化任务需要处理的内容呈现出较大变化,除文本形式发生了改变之外,隐私信息类别也比以往更趋丰富,增加了识别的难度。

[BT4]1SVM和CRF双层分类器

在2006年参与评测的候选方案中,基于CRF的方法获得了良好表现。通过选取合适的特征,能够优化改进CRF模型的效果。此外,模型融合也是提升实体识别效果的方法。在机器学习方法中,SVM善于解决分类问题,与其他分类模型相比SVM具有较小的结构风险,并能够通过核函数处理高维度的特征向量。本次研究通过CRF模型与SVM的成功融合,得到CRF与SVM的双层分类模型来对英文电子病历中的隐私信息进行识别。

[JP2]将模型训练分为2层:第一层通过SVM训练模型,得到一个将数据分类为隐私信息与非隐私信息的分类器,并通过这个分类器对数据执行分类,再将结果作为新的特征加入到训练数据与测试数据中;第二层使用上一层得到的新的数据训练CRF模型,得到最终的分类器。图1展示了模型的流程图。

研究中,首先使用SVM将数据初步分类为隐私信息与非隐私信息。初步分类有2种方式:

1)词级(token-level)的二分类,即只将样本分为隐私信息与非隐私信息两类;

2)实体级(entity-level)的二分类,将样本分为属于一个实体与不属于一个实体2类,实体级二分类的本质是多分类,将样本分类B、I、O这3类,分别表示隐私信息的开始、内部和非隐私信息。

本文采取了第二种方式对样本的类别设计确定标注,训练模型后对训练数据与测试数据中的隐私信息实体进行边界划分。

第一层通过SVM分类得到的结果可能出现一些边界错误,例如,被分类为O,被分类为I,被分类为I或者被分类为O,被分类为O,被分类为I。为了减少这类错误,过程中即根据实体边界的限定对SVM分类的输出进行了约束,使得每个实体都以标记为B的词作为起始词。

经第一层SVM分类得到的是对样本进行边界划分的结果。如果以这个边界划分结果直接作为训练CRF模型的输入并对实体类别给出划分,得到的结果会直接继承SVM的分类错误,产生错误累积。所以在训练CRF模型时首先保留原数据的特征,并在此基础上将SVM的分类结果作为新的特征添加入模型,这样既能够使第一层的边界划分结果在第二层模型中起到作用,同时也减少了错误的累积。

[BT4]2实验与分析

在实验中首先进行预处理和特征抽取,然后训练SVM分类器,得到分类结果之后转入边界修正处理,并将处理后的结果作为特征添加到数据中。而后,使用CRF展开训练,再使用得到的CRF分类器对测试数据中的隐私信息进行识别。图2为系统的流程图。重要模块的工作细节将在后面的内容中做出如下说明与表述。

2.1数据预处理

直接在未经词切分处理的电子病历文本上进行隐私信息的识别有很大的难度,所以需要先对电子病历进行词切分处理,具体将词切分过程分为2个步骤:

1)使用OpenNLP将文本求取句子划分并对此结果进行词切分,得到初步的切分结果;

2)构建了一些正则表达式,用来匹配一些可能存在粘连的词,并将匹配到的结果进行第二次划分。

完成预处理后,即可针对每个词实现了特征抽取。通过对电子病历文本的分析以及实验筛选,共选取了4类特征,分别为词特征、构词特征、上下文特征以及字典特征。

2.2模型训练

本次评测共提供了1 304份经专家标注并替换了隐私信息的电子病历。病例语料中的隐私信息共包含7个主要类别和25个子类别,共计28类隐私信息。实验时选取790份病例用做训练语料,剩余的514份用做测试语料。

仿真过程共设计了4组实验:

1)只使用SVM多分类,在训练时使用了高斯核函数;

2)只使用CRF多分类,训练时使用了默认参数;

3)使用词级二分类SVM与CRF多分类组合,CRF使用了默认的参数,SVM使用了高斯核函数;

4)使用实体级二分类SVM与多分类CRF组合,CRF使用了默认的参数,SVM使用了高斯核函数。

实验中通过网格搜索对SVM进行了参数调整。在参数选择时,具体使用了LIBSVM的网格搜索工具,并使用得到的参数训练SVM分类器。

2.3结果分析

[JP3]研究选取了4组实验的前2组作为baseline,使用同样的标准对实验结果进行了评价。表1列举了4组对比实验的结果。

实验结果表明,使用实体级二分类SVM与CRF多分类的组合效果最好。在单层模型中,由于隐私信息的类别较多,导致使用默认参数的SVM多分类效果较差,而CRF的效果要优于SVM。在双层模型中,词级二分类SVM与CRF多分类组合效果要偏弱于实体级二分类SVM与CRF组合的原因在于,在第一层SVM分类时,如果只将样本分成隐私信息和非隐私信息会忽略隐私实体边界,无法通过约束SVM分类的输出过滤掉一些边界错误,将此结果作为特征添加到数据中并通过CRF训练得到的分类器累积了上一层的边界错误,导致识别效果不佳。在第一层通过SVM将样本分类为B、I、O既能够识别实体的边界,也能够保证不会因为类别过多而导致分类精度降低,同时可以根据实体边界的限定,从而减少错误累积。

表2列举了使用实体级别的二分类SVM与CRF组合对于隐私信息实体识别的结果。结果显示,方法对“AGE”、“DATE”、“CONTACT”与“IDs”的识别效果较好,F值达到0.9左右,这些类别的实体通常具有固定格式,加入了构词特征的分类器能够对这些类别的隐私信息进行有效识别。而对于“PROFESSION”、 “ORGANIZATION”、“COUNTRY”、“OTHER”、“FAX”、“EMAIL”以及“DEVICE”等类别的识别效果较差,这是由于在训练数据中这些类别的实体出现次数过少。其中“ORGNIZATION”的识别效果最差,F值仅达到0.333 3,除了训练样例较少的原因外,“ORGNIZATION”类别的隐私信息在一些特征上与其他类别的隐私信息十分相似,使其容易被分类器错误分类。此外, “PATIENT”和“DOCTOR”@2类隐私信息十分接近,且同属于“NAME”类别,在识别时也出现了误分类情况。

[BT4]3结束语

经实验验证,基于SVM和CRF双层分类器在电子病历上对隐私信息的识别是卓具实效的,其中正确的预处理和合适的特征集合发挥了核心关键作用。在模型训练部分,第一层的SVM边界划分至关重要,良好的输出约束能够减少边界[CM(26]错误,由此收获的新特征也能使第二层CRF分类器的识别效果得到改进与提高。在未来的工作中,将通过增加规则来弥补部分数据不足的缺陷,提升对于样本数量较少的隐私信息的召回能力,并通过调整特征以及约束输出的规则,使得在分层训练模型时的错误累积降低,进一步增强隐私信息的识别能力。

参考文献

[1]杨锦锋,于秋滨,关毅,等. 电子病历命名实体识别和实体关系抽取研究综述[J]. 自动化学报,2014,40(8):1537-1562.

[2] 关延风,马骋宇. 基于电子病历的医疗信息隐私保护研究[J]. 医学信息学杂志,2011,32(8):36-39.

[3] WELLNER B,HUYCK M,MARDIS S,et al. Rapidly retargetable approaches to deidentification in medical records[J]. J. Am. Med. Informatics Assoc.,2007,14(5):564-573.

[4] MEYSTRE S M,FRIEDLIN F J,SOUTH B R,et al. Automatic deidentification of textual documents in the electronic health record: a review of recent research[J]. BMC Med. Res. Methodol.,2010,10(1):70.

[5] NEAMATULLAH I,DOUGLASS M M,LIWEI H L,et al. Automated de-identification of freetext medical records[J]. BMC Med. Inform. Decis. Mak.,2008,8(1):32.

[6] BECKWITH B A,MAHAADEVAN R,BALIS U J,et al. Development and evaluation of an open source software tool for deidentification of pathology reports[J]. BMC Med. Inform. Decis. Mak.,2006,6(1):12.

[7] FRIEDLIN F J,MCDONALD C J. A software tool for removing patient identifying information from clinical documents[J]. J. Am. Med. Informatics Assoc.,2008,15(5):601-610.

[8] UZUNER O,LUO Y,SZOLOVITS P. Evaluating the stateoftheart in automatic deidentification[J]. J. Am. Med. Inform. Assoc.,2007,14(5):550-563.

[9] SZARVAS G,FARKAS R,BUSAFEKETE R. Stateoftheart anonymization of medical records using an iterative machine learning framework[J]. J. Am. Med. Informatics Assoc.,2007,14(5):574-580.

[10]BOSTRM H,DALIANIS H. Deidentifying health records by means of active learning[C]// ICML 2012, The 29th International Conference on Machine Learning. Edinburgh, Scotland, UK:Omnipress,2012:90-97 .

上一篇:迪士尼动画电影《花木兰》所见中美文化差异 下一篇:财务管理目标与企业财务核心