项目反应理论在医学量表条目筛选中的应用

时间:2022-09-13 05:58:28

项目反应理论在医学量表条目筛选中的应用

[摘要] 本文着重介绍项目反应理论(IRT)的基本特征及其在医学量表编制和修订中的具体应用。IRT具有项目参数不变性,可以为条目和量表提供信息量及不同潜在能力对应的测量信度。因此,IRT主要从项目参数、项目特征曲线、个体-条目图、条目对模型的拟合情况、条目信息量、条目在不同群体上的项目功能差异等方面判断条目的优劣。

[关键词] 生存质量;条目筛选;项目反应理论

[中图分类号] R195 [文献标识码] C [文章编号] 1673-7210(2014)02(b)-0155-04

The application of item response theory in screening item of medical scale

LIN Yueqing1 ZHANG Weitao1 FANG Jiqian2

1.Rehabilitation Center of Guangdong Province Occupational Injury, Guangdong Province, Guangzhou 510440, China; 2.Department of Epidemiology and Health Statistics, School of Public Health, Sun Yat-Sen University, Guangdong Province, Guangzhou 510275, China

[Abstract] This article focuses on the basic features of item response theory (IRT) and the specific application in the establishment and revision of medical scale. The item parameters of IRT have the nature of invariance, so IRT can provide the information of item and scale, and the measurement reliability of different potential ability. Therefore, IRT judges the merits of item from the item parameters, item characteristic curve, the individual-item chart, fit of the model, the amount of information and DIF in different groups.

[Key words] Quality of life; Item screening; Item response theory

条目筛选是量表编制及简化工作中不可缺少的部分,选择好的筛选方法、恰当的评价指标及筛选好的条目是保证最终量表具有较好的信度和效度的重要过程。目前条目筛选的方法主要包括经典测量方法(CTT)和项目反应理论(item response theory,IRT)方法。CTT,比如相关系数法、因子分析法、克朗巴赫系数法、重测信度法等[1-2],因其理论较成熟,数学模型简单,在国内得到广泛的应用。然而它在理论假设和实际应用方面也存在许多不足,如潜变量与观测变量之间通常不是线性关系,项目参数严重依赖于被试样本,只提供平均测量信度等。IRT的发展克服了上述缺陷[3]。与CTT相比,IRT具有下列优点:①被试者的能力估计不依赖于量表条目;②项目参数(区分度和难度)估计不依赖于被试样本;③用信息函数的概念代替了CTT的信度理论,可以提供条目信息量及不同能力水平对应的测量信度。IRT是20世纪50年展起来的一种心理与教育测量理论,主要用于试题、量表条目的筛选和评价,在西方国家发展很快,但在国内用于医学研究的很少,因此,本文介绍IRT的基本特征及其在医学量表的项目分析中的应用。

1 IRT的基本介绍

IRT是一系列心理统计学模型的总称。美国心理测量学家Lord于1952年提出著名的累积正态模型(normal ogive model)标志着IRT的正式诞生。IRT对所测量的项目可以找到一条项目特征曲线(ICC),通过被试者对项目的反应与其潜在特质之间的关系用一单调递增的项目反应函数来估计被试者的能力水平。ICC是IRT的基础,两个常用的参数(区分度和难度)决定了它的形状,常为一条“S”型曲线,见图1。难度参数(b,也称阈值参数)是指被试者按给定方向选择某个选项的概率为50%所对应的潜在能力点;难度参数越大,被试者选择这个选项需要的能力就越大。区分度参数(a)是指难度参数对应的ICC曲线拐点的斜率。区分度参数越大,表示条目对不同潜在特质水平的人群有越高的区分能力。三参数模型还可以估计伪机遇参数(c),在考试中,c的估计可以提高能力估计的精度,但在健康研究中,估计c的意义不大,反而增加了参数估计的复杂性。对于多级记分模型,不同模型的难度参数概念略有不同,它们的原理都是将k个选项的条目分成(k-1)个二分类条目,故有(k-1)个阈值参数。在ICC的基础上,IRT还可以产生类别反应曲线(CRCs),它表示每个反应选项在特定能力水平下被选择的概率,因此,每个选项都有一条相应的类别反应曲线,如图2为一个5分类条目的CRCs,若条目基于分部评分模型,则相邻两个类别反应曲线的交点可作为这个条目的阈值参数。

图 1 项目反应曲线

IRT的另一个重要特征就是信息函数,它是潜在能力θ的一个连续函数。对具有同一能力θ的一组被试,其能力估计值的标准误差越小,估计值对真实值提供的信息量就越大,当用极大似然法估计θ时,估计量随样本量的增大而渐近正态分布,则测验信息函数可以定义为能力估计值的方差的倒数,即I(θ)=1/var(θ)或者SE(θ)=1/■。测验信息与测量误差是一一对应的,信息量越大,测量精度越高,信息量最大值所对应的能力水平代表该条目所能最精确测量到的能力参数估计值。若记项目信息函数为Ii(θ),n个条目的信息累加,则可产生测验信息函数,其数学表达式为I(θ)=■Ii(θ)。可见,每个条目可以单独对量表总信息作贡献,贡献量大小不受量表其它条目的影响,因此可以为增加或者删除条目提供依据。

2 IRT在条目筛选中的应用

2.1 IRT模型的选择

IRT模型是建立在强假设的基础上,若假设不成立,则可能导致得到的结果不能很好地解释数据信息。因此,选择适当的模型是很重要的。IRT有单维、多维的参数模型及非参数模型等多种模型,由于后两种模型较复杂且应用少,本文主要介绍单维的参数模型[3-4]。选择模型时,需要考虑条目的选项个数、模型参数及参数是否受到限制等问题,表1总结了8种模型的主要特征。

目前IRT的参数估计方法很多,大多数方法是以极大似然估计法和Bayes估计法为基础,其中极大似然估计法的应用最广泛。目前对于PCM、GPCM、GRM等模型的选择没有明确的标准,主要根据个人的偏好或者对软件的熟悉程度选择其中一个模型。比如Rumm、Parscale、Winsteps等软件可用于PCM的估计,而Multilog软件多用于GRM的估计。

2.2 评价IRT模型的拟合情况

2.2.1 考察模型假设 IRT的应用有两个基本的假设[3]:单维性和局部独立性。前提假设满足的程度越高,越能体现IRT模型应用的有效性。①单维性是指量表或者子量表中的每个条目测量的都是同一种潜在特质,如躁狂人格量表主要测量患者的躁狂水平。实际上任何量表都不可能是严格单维性,而是指在被试者反应的所有因子中仅有一个因子占主导地位,且是感兴趣的因子。目前检验的方法主要有4种:探索性因子分析,是最常用的一种方法[5];证实性因子分析;残差主成分分析[6];平行分析。这些方法可以单独使用,也可以联合使用。②局部独立性是指具有同一能力水平的被试者对量表中的每个条目的反应都只受其能力的影响,而独立于其他条目的反应。目前检验的方法主要有χ2检验和残差相关分析[7]。实际上,局部独立性与单维性是相关联的,只有基于单一潜在特质变量的项目反应是局部独立的,这个数据才是单维的[3]。③若条目在不同群体(如性别)中表现的特性不同,则单维性假设也可能不满足。因此还需要检测条目的项目功能差异(DIF),以保证条目内容在不同群体中的等价性。在生存质量研究中,DIF是指具有不同的文化背景和生活经历但具有相同生存质量(能力)的不同群体(比如性别)对同一条目的理解和反应不同[8]。DIF分析在教育、心理测量和生存质量研究中已得到广泛的应用。目前分析DIF的方法很多,如STAND、SIBTEST、Mantel-Haenszel、Logistic回归、基于IRT的方法(MIMIC、DFIT、IRTLRDIF、TESTGRAF)[8]等。

2.2.2 模型-数据的拟合优度检验 对于模型-数据的整体拟合,不同的软件提供不同的拟合指标。多数软件是对观察分数与模型预测值之间的分布进行χ2检验。如BIOLOG、MULTILOG及PARSCALE等的拟合统计量主要是χ2统计量(-2倍的对数似然函数)[9];Rumm软件提供条目特质χ2拟合统计量(item-trait interaction statistic);也有研究认为对于同一条目的每个类别,观察频率与模型概率的差异小于0.02,便可认为模型与数据是拟合的[10]。对于条目(个体)-模型的拟合,一般是通过拟合残差(所有被试者对某一条目反应得分的标准化残差之和)评价条目水平上单维模型的拟合情况。目前很多IRT软件都提供不同的拟合指标,如Rumm提供条目拟合残差;Winsteps提供Infit均方和Outfit均方;IRTFIT还可以针对上述8种模型通过G2和χ2判断每个条目的拟合情况[11]。此外,很多IRT软件还提供个体拟合残差,从个体水平上评价个体反应模式与模型预测模式的一致性。

2.3 条目筛选和评价指标

根据Edelen等[12]和Meads等[13]的研究,目前基于IRT的条目筛选指标主要有:①区分度参数(a),a太小说明条目对被试者的能力估计提供的信息量太少;②根据类别反应曲线(CRCs)和难度参数判断条目是否存在逆反阈值(reversed thresholds)、条目选项的有效性及条目的难度范围是否合适;③个体-条目图,将条目难度和个体潜在特性反应在同一尺度上,用于考察条目测量被试者能力的范围及条目是否足够或者出现冗余等情况;④条目对模型的拟合情况;⑤条目信息量及信息曲线,选择信息量大和覆盖能力范围广的条目,通过信息曲线可以判断条目冗余的情况;⑥条目在不同群体上的功能差异分析。不同的模型提供不同的指标,因此不是所有模型都提供上述6种指标,比如分部评分模型不提供区分度参数,等级反应模型不提供个体条目图等。对于量表的编制或者修订,应该根据选定的模型选择相应的筛选指标,删除某些不符合要求的条目后,再对剩余条目进行重新评价,直至所有条目都满足要求为止。对于较成熟的量表,除考虑上述指标外,还可以用其他方法考察量表简化的情况。Bjorner等[14]根据简明量表的条目构建评分算法预测原始量表的总分,评价预测分与原始分的关系。

3 样本量

大多数应用IRT的文献都没有对样本量有明确的说明,样本量的多少是否会影响IRT模型的应用呢?根据国外文献,模型越复杂,需要的样本量越大。Linacre[15]认为,要保证Rasch模型参数估计的稳定性,至少需要100名被试者。对于拥有两个及以上参数的模型,如等级反应模型至少需要250人,但为了更精确的估计参数,样本量为500人较为合适[3]。样本量越大,条目参数估计对应的标准误越小,测量也越精确。如果IRT是用于条目池的项目分析,则需要的样本量较大,而若是用于成熟量表条目特性的评价,则需要的样本量较小[12]。此外,数据满足IRT模型假设的程度越好,需要的样本量越小[9]。

4 展望

随着生存质量和患者报告结局的不断发展,人群健康评价、患者生存质量监测、患者筛选(如抑郁患者)等研究需要越来越多的量表,IRT的引入为这些量表的发展及简化提供了有力的工具。然而IRT的引入并不意味着要摒弃经典测量理论。经典测量理论主要从宏观的角度评价量表,而IRT则从微观的角度分析每个条目,两种理论相辅相成,互相补充,将两者有机融合能使最终量表具有更好的信度和效度。随着IRT在生存质量量表研究中的应用的不断增多,其自身的某些缺陷也逐渐突现,如IRT是建立在比较复杂的数学模型上,理解比较困难,依赖较强的假设。在健康结局测量研究中,多数量表由多个方面组成,很少只测量单一的能力,因此IRT的单维性假设在健康研究中很难实现。若分维度来分析多维度量表,单维性的问题解决了,但在每个维度包含的条目数很少的情况下会增大测量误差,且没有考虑多维度之间的相关性,致使测量结果准确性下降。为解决这些问题,国外研究者开始向多维IRT模型(MIRT)和非参数IRT模型(NIRT)发展,探讨它们在健康研究中的应用,不同模型之间的比较以及不同模型对样本量的要求等问题。本文的研究目的是介绍基本的IRT方法,鼓励更多的研究者应用IRT去发展和修订量表,感兴趣的研究者也可以从上述方面更深入的研究IRT,拓展IRT在国内的发展。

[参考文献]

[1] 郝元涛,孙希凤,方积乾,等.量表条目筛选的统计学方法研究[J].中国卫生统计,2004,21(4):209-211.

[2] 秦浩,陈景武.医学量表条目的筛选考评方法及其应用[J].中国行为医学科学,2006,15(4):375-376.

[3] Embretson SE,Reise SP. Item response theory for psychologists [M]. Mahwah:Lawrence Erlbaum,2000:13-125.

[4] 漆书青.现代教育与心理测量学原理[M].北京:高等教育出版社,2002:179-189.

[5] Slocum SL. Assessing unidimensionality of psychological scales:using individual and integrative criteria from factor analysis [J]. Social Indrcators Research,2011,102(3):443-461.

[6] Levine TR.Confirmatory Factor Analysis and Scale Validation in Communication Research [J]. Communication Research Reports,2005,22(4):335-338.

[7] Reeve BB,Hays RD,Bjorner JB,et al. Psychometric evaluation and calibration of health-related quality of life item banks:plans for the Patient-Reported Outcomes Measurement Information System (PROMIS)[J]. Med Care,2007, 45(5):22-31.

[8] Teresi JA,Fleishman JA. Differential item functioning and health assessment [J]. Qual Life Res,2007,16(1):33-42.

[9] Du Toit M. IRT from SSI:BILOG-MG,MULTILOG,PARSCALE,TESTFACT [M]. USA:Scientific Software International, lnc,2003:528-591.

[10] Gomez R,Cooper A,Gomez A. An item response theory analysis of the Carver and White(1994)BIS/BAS Scales [J].Pers Indiv Differ,2005,39(6):1093-1103.

[11] Bjorner JB,Smith KJ. IRTFIT:A Macro for Item Fit and Local Dependence Tests under IRT Models [EB/OL]. Quality Metric Incorporated. http://appliedresearch.cancer.gov/archive/irt/irtfit_macro_users_guide.pdf.2007.

[12] Edelen MO,Reeve BB. Applying item response theory (IRT) modeling to questionnaire development,evaluation,and refinement [J]. Qual Life Res,2007,16(1):5-18.

[13] Meads DM,Bentall RP. Rasch analysis and item reduction of the hypomanic personality scale [J]. Pers Indiv Differ,2008,44:1772-1783.

[14] Bjorner JB,Petersen MA,Groenvold M,et al. Use of item response theory to develop a shortened version of the EORTC QLQ-C30 emotional functioning scale [J]. Qual Life Res,2004,13(10):1683-1697.

[15] Linacre JM. Sample size and item calibration stability [J]. Rasch Measurement Transactions,1994,7(4):328.

(收稿日期:2013-10-16 本文编辑:程 铭)

上一篇:胃癌患者外周血DPD mRNA的表达与替吉奥化疗不... 下一篇:以市场为牵引、精益为工具提升民品技术创新能...