四参数模型对被试作答异常现象的拟合与纠正

时间:2022-07-14 04:31:03

摘 要 心理与教育测验中存在着被试作答异常现象(能力测验中的猜测现象和睡眠现象,人格测验中的非0下渐近线现象和非1上渐近线现象),会导致被试能力或人格特征的测量偏差,在能力测验中,研究者已提出了多种方法来纠正猜测现象和睡眠现象,这些方法往往需要调整或删除被试作答信息,而四参数模型不需要改变被试作答信息而能有效纠正被试能力高估或低估现象,在人格测验中存在着非0下渐近线和非1上渐近线现象,四参数模型能增强测验项目拟合性能,提高人格测验的准确性。

关键词 IR7;猜测现象;睡眠现象;四参数Logistic模型

分类号 B841.7

1 测验中的猜测现象和睡眠现象(非0下渐近线现象和非1上渐近线现象)

按测验对象的内容来分,心理与教育测验可以分为智力测验、能力倾向测验、教育成就测验、人格测验等,而智力测验、能力倾向测验、教育成就测验都是最佳行为测验,可以统称为能力测验。在能力测验中,低能力被试靠猜测或者其他原因答对了高难度试题,这种现象叫做猜测现象(guesser,or guessing phenomenon),猜测现象在能力测验中比较常见。在能力测验中还存在另一种现象,即高能力被试答错容易试题的现象,Wright(1977)将其称为“睡眠现象”(sleeper,orsleeping phenomenon),比如一些学习成绩较好的学生都可能有过这样的体验:在测验时有些试题比较容易,但由于某些原因做错了。在计算机自适应测验(Computerized AdaptiveTest,CAT)测验中,高能力被试可能会由于一些原因而答错容易试题,Rulison和Loken(2009)概述了高能力被试答错容易试题的几种原因:焦虑、测试不良环境导致的被试分心、不熟悉计算机(在CA7时)、粗心、误解了题意等等,由于这些原因导致了被试答错相对容易的试题。此外测验动机过强、家长期望压力过大也往往会造成高能力被试没有考好,答错了对于他们来说较为容易的试题,对于猜测现象,在项目反应理论模型中用c参数(thelower asymptote)来反映,使用三参数Logistic模型来分析存在猜测现象的测验数据。对于睡眠现象,Barton和Lord(1981)提出用丫参数(thcupperasymptote)来反映,即在三参数Logistic模型的基础上增加r参数,使用四参数Logistic模型来分析同时存在猜测现象和睡眠现象的测验数据。

以上论述了在能力测验中的被试猜测现象和睡眠现象,相应的,在人格测验中存在被试作答的“作假”现象(Faking)。被试作假行为也有多种,包括被试期望反应行为、掩饰行为、趋中反应和随机化行为等等。随机化行为,往往是被试对人格测验不予以配合时发生的,这种情况可以通过指导语等方式取得被试的配合。对于趋中反应,可以通过营造一个良好的测验环境,使用指导语鼓励被试按实际情况作答来避免。在人格测验中,这里将主要论述对测验结果影响较大的被试期望反应行为和掩饰行为这两种主要的作假现象,在人格测验中,被试往往会受到社会期望压力、焦虑、掩饰等因素的影响,会产生两类作答反应倾向:一是由于社会期望压力、焦虑或其他因素,被试在试题上表现出入格特征维度高水平方向的倾向性作答(例如在社会期望反应方向为正向记分时),使得被试在这一人格特征维度上的总分偏高,本文将这种现象称为非0下渐近线现象(non-zero lower asymeptote),可以用c参数来反映(Rouse,Finger,&Butcher,1 999;Reise&Waller,2003);二是由于被试掩饰、说谎等原因,在试题上表现出入格特征维度低水平方向的倾向性作答(例如人格病理方向为正向记分方向),使得被试在这一人格特征维度上的总分偏低,本文将这种现象称为非1上渐近线现象(non-one upoerasymeptote),可以用r参数来反映(Reise&Waller,2003)。非0下渐近线现象和非1上渐近线现象是在人格测验中常见的两种作假现象。非0下渐近线现象和非1上渐近线现象,造成被试得分不准确,导致人格测量的偏差。相对于能力测验而言,在人格测验中被试很容易作假,这在职业选拔、人才测评的人格测验中尤为突出,Reise和Waller(2003)在分析人格测验MMPI-2时,发现了测验中的试题既存在着下渐近线,同时也发现一些试题存在着上渐进线,认为非1上渐近线现象也是试题的一个属性,这时可以用四参数Logistic模型来反映并拟合测验数据。

能力测验中的猜测现象和睡眠现象,人格测验中的非0下渐近线现象和非1上渐近线现象,本文统称为被试作答异常现象。这些被试作答异常现象会导致测验总分偏高或偏低,导致测量偏差。心理与教育测量的研究主要目标之一就是减小测量误差,提高测量的准确性,如何来克服这些被试作答异常现象对测量的影响?在经典测量理论下,如果高能力被试(人格特征高分被试)答错了容易试题,被试将失去该道试题的分值,从而使得被试得分偏低;如果低能力被试(人格特征低分被试)答对了高难度试题,被试将得到该题的分值,使得被试得分偏高。因此,在经典测量理论下计算被试总分时,往往难以对被试的作答异常现象(猜测现象和睡眠现象,非0下渐近线现象和非1上渐近线现象)进行有效纠正,而在项目反应理论下,当被试作答异常现象时,被试能力估计或人格特征估计情况是怎样的呢?在四参数模型中c参数反映了猜测现象门10下渐近线现象),r参数反映了睡眠现象(非1上渐近线现象),那么c、Y参数是否有助于心理与教育测验的准确测量?下面就以上两个问题,从能力测验和人格测验两个方面进行论述。

2 在能力测验中对被试作答猜测现象和睡眠现象纠正的研究情况

2.1 对被试作答猜测现象和睡眠现象纠正的早期研究情况

在早期IRT研究中,许多著名的IR7研究者(Wright,1977;Wainer&Wright,1980;Barton&Lord,1981;Mislevy&Bock,1982)都对测验中的猜测现象和睡眠现象进行了分析,并提出多种纠正方法,以下按研究的时间顺序进行论述。

最早对测验中猜测现象、睡眠现象进行研究的是Waller和Wright。Waller(1974)认为,如果要调整被试作答情况的权重以消除猜测现象的影响时,应该考虑被试能力与项目难度之间的距离来进行调整。Wright(1977)论述了Rasch模型应用中的问题,其中包括了被试作答的猜测现象、睡眠现象、迟钝现象、缓慢现象等,但Wright认为不必分析每一个被试是否存在这些现象,只有当这些现象会影响被试能力估计而产生偏差

时,可以采用删除该被试的有关作答情况的方法来纠正。

Wainer和Wright(1980)在Rasch模型下探讨了猜测现象和睡眠现象时对能力估计的影响,使用了5种方法进行对比:①纯Rasch模型,②传统的纠正猜测现象方法,⑧使用Jackknife方法④使用AMT-Robustified Jackknife方法,⑤WIM方法(此方法是检验被试作答模式是否奇异,如果统计值大于,值的临界值,则删除被试在该试题上的作答情况,再进行能力估计)。Wainer和Wright在比较分析后,认为AMT-RobustifiedJackknife方法在出现猜测现象和其他作答情况时都有较好的纠正作用;WIM方法只有当低能力被试靠猜测答对试题时,能提高能力估计的准确性;传统的纠正猜测现象方法只有当猜测现象的比例比较大,测验较长,而且被试为低能力被试时才体现了较好的纠正作用;而在测验长度比较短时,Jackknife方法纠正被试能力高估或低估现象都比较好。

Barton和Lord(1981)对SATVerbal、SATMath、GRE Verbal、AP Calculus四批测验数据进行分析,其研究目的是:(1)在三参数Logistic模型下,分析高能力被试的能力估计值是否会被低估;(2)在三参数Logistic模型的基础上增加v参数后,分析被试能力估计值的变化情况。通过四参数Logistic模型与三参数Logistic模型的结果比较,Barton和Lord认为:在三参数模型增加7参数后,测验极大似然值没有显著增加;在被试整体上比较分析,被试能力估计值没有显著的变化,此外,四参数模型增加了计算的复杂性,因而Barton和Lord认为不提倡使用四参数模型,这里要特别指出的是,Barton和Lord(1981)对四参数模型的观点也不是完全否定的。在该研究报告的最后一段话认为,如果高能力被试答错容易试题时,在正态肩形模型(单、两参数正态肩形模型)下不予以“原谅”,则可以使用Y参数为0.98或0.99的四参数模型作为特例(strong case)来特殊处理,可以纠正高能力被试答错容易试题时的能力估计“惩罚过大”的现象。可见Barton和Lord也部分肯定了在高能力答错容易试题时,四参数模型能够纠正被试能力低估现象。

Mislevy和Bock(1982)在单、两参数Logistic模型下,探讨了低能力被试依靠猜测答对了高难度试题(猜测现象)和高能力被试因为疏忽而答错了容易试题(睡眠现象)的情况,这时被试的能力估计值往往显得偏离过大,即高估或低估了被试能力。对于被试作答时存在的猜测现象和睡眠现象,Mislevy和Bock提出了逐步调整被试作答情况权重的方法,即被试所作答试题的难度b与被试自身能力估计值0之间的距离来给予被试作答情况不同的权重:(1)当b与0的距离较近时,给予被试作答情况较大的权重,当b与0的距离较远一些时,则给予被试作答情况较小的权重;(2)如果b与0的距离很远并超过一定范围时,则删除被试在该试题上的作答情况再进行能力估计,以减小能力估计的偏差。

2.2 对被试作答猜测现象和睡眠现象纠正的近期研究情况

从1980年代中期至2000年,对被试能力高估或低估现象的研究沉寂了一段时间。至2000年,美国高等教育年鉴报道,ETS曾经让参加CAT-GRE测试的大约0.5%的考生免费重考(Carlson,2000),许多研究者由此又开始关注被试能力高估或低估现象,认为E7S让考生免费重考可能是这些考生能力被严重低估而导致不可信,许多研究者已经对此问题进行了探讨,包括从改进选题策略、使用四参数模型的角度进行了研究分析。

2.2.1 改进选题策略的方法

改进选题策略的方法是主要是由Chang和Ying(1999,2002)提出。Chang和Ying(2002)认为2000年ETS的GRE CAT测验中被试能力低估,主要是CAT的选题策略存在设计误区。因为在使用传统的Fisher最大信息量的选题方法时,在测验的开始阶段往往就选择项目信息量最大的试题(即区分度较大的试题)给被试作答,这往往造成被试能力估计不稳定,被试能力估计值摆动幅度过大。Chang和Ying通过公式推导,发现初始估计不稳定表现在两个方面:一是,如果被试在测验开始答错了几道试题(开始测试时一般是中等难度试题),传统的最大项目信息量方法可能会将被试能力估计值向负方向推很远。即使被试在后面的试题回答正确,往往也很难在测验结束前将分数爬回到高分区,从而使得被试能力被低估:二是,如果被试在测验开始连续答对几道试题,传统的最大项目信息量方法可能会将被试能力估计值向正方向推很远。即使考生在后面的试题中答错了若干道试题,也有可能获得高分,被试能力被高估,Chang和Ying认为使用a分层最大信息量方法,在测验开始时,选择区分度较小的试题,就可以避免在测验开始时,被试发挥不佳而导致能力估计值摆动幅度较大的现象,从而避免被试能力被低估,Chang和Ying(2008)在2002年的研究基础上进一步论述了a分层最大项目信息量选题策略,并使用CAT模拟的方法进行分析,发现在CAT测验开始阶段使用项目信息量较小的试题的选题策略,可以减小被试能力估计值摆动的幅度,减小在初始阶段被试能力估计的均方误差RMSE和偏差Bias。此外,Rulison和Loken(2009)的研究也进一步论证了Chang和Ying的a分层选题策略的观点,Rulison和Loken的研究结果显示,当高能力被试作答出现答错相对容易试题时,a分层选题策略可以在一定程度上帮助被试能力估计值回到CAT模拟初值。在一定程度上减小被试能力低估现象的幅度,但是同时也发现,a分层选题策略的纠正作用远不及四参数模型的纠正作用。

2.2.2 使用四参数模型的方法

已有多个研究提出了使用四参数模型方法来纠正被试能力高估现象和低估现象。(1)戴海崎和简小珠(2005)分析了当被试答错相对容易试题(即存在睡眠现象),或被试答对相对高难度试题(即存在猜测现象)时,会导致被试能力的低估或高估现象;并提出四参数模型方法,以纠正被试能力低估或高估现象。(2)简小珠(2006),以及简小珠、戴海崎和彭春妹(2007)的研究中,在纸笔测验的形式下设计安排中等能力被试作答不同难度的试题(包括设计安排被试作答的猜测现象和睡眠现象)。在单、两参数Logistic模型下,发现被试能力估计值存在着第一未契合现象(其本质是被试答对高难度试题时被试能力被高估的现象)和第二未契合现象(其本质是被试答错容易试题时被试能力被低估的现象)。在四参数Logistic

模型下,c、Y参数可以有效纠正第一、第二未契合现象,也就是说,能有效纠正被试能力高估或低估现象。此外,r参数在0.70至0.98之间能有效的纠正高能力被试答错容易试题时能力被低估现象,如果Y参数进一步增大到0.999或0.9999Y参数的纠正作用将逐渐消失;c参数在0.30至0,01之间能有效的纠正低能力被试答对高难度试题时能力被高估现象,如果c参数进一步减小到0,001或0,0001,c参数的纠正作用将逐渐消失。(3)Rulison和Loken(2009)使用CAT模拟方法模拟了被试测试过程。在测验长度为30和45题时,(a)在二参数Logistic模型下,在测试开始阶段额外增加两道中等难度的试题并让被试答对,这时低能力被试和高能力被试的最终能力估计值受到的影响较小,然而,如果在测试开始阶段额外增加两道中等难度的试题并让被试答错,这时低能力被试的最终能力估计值受到的影响较小,而高能力被试的能力估计值在CA了的过程一直受到答错试题的影响,而且测验的最后能力估计值显著低于模拟初值;(b)在四参数Logistic模型下,在测试开始阶段额外增加两道中等难度的试题并让被试答错,这时高能力被试的最后能力估计值能顺利到达模拟初值,也就是说,高能力被试的最后能力估计值不再受到答错容易试题的影响,通过一系列的CAT模拟和比较分析,Rulison和Loken认为四参数模型下,能较好的纠正高能力被试答错容易试题时的能力低估现象,同时也能较好的纠正低能力被试答对高难度试题时的能力高估现象,因此建议在CAT研究与应用时使用四参数Logistic模型。

2.3 被试作答猜测现象和睡眠现象的纠正方法比较分析

由以上研究可知,针对猜测现象和睡眠现象(被试能力高估和低估现象),许多研究者提出了许多纠正方法,包括删除被试作答情况的方法、传统的纠正猜测现象方法、Jackknife方法、AMT-Robustified Jackknife方法、逐步调整被试作答情况权重的方法和使用四参数Logistic模型的方法等等。在这些方法中,哪些方法值得优先选择呢?本文认为使用四参数Logistic模型的方法是较优的方法,因为:(1)对被试作答情况进行删除或调整的方法(包括传统的纠正猜测方法,Jackknife方法,AMT-Robustified Jackknife方法,删除被试作答情况方法,逐步调整被试作答情况权重的方法),是针对被试作答的猜测现象或睡眠现象(被试能力高估或低估现象)采用的补救方法,这些补救方法往往会改变被试作答情况的原始信息,或者删除了被试作答情况的原始信息,也就是说,没有“尊重”被试原始作答信息,(2)改进CAT选题策略的方法(Chang&Ying,2002),仅是在一定程度上纠正CA7测试中的被试能力高估或低估现象,其纠正作用不及四参数模型,而且该方法仅适合在CAT测试,不适合纸笔测验:(3)使用四参数Logistic模型的方法,四参数模型中的c参数反映猜测现象,r参数反映睡眠现象,因而能适合被试作答的猜测现象和睡眠现象,能够从数学模型内部来有效纠正被试能力高估或低估现象,而不需要调整或删除被试作答的原始信息,使用四参数Logistic模型方法,可以有效纠正被试能力高估或低估现象,因而值得优先选择。

2.4 被试作答猜测现象和睡眠现象纠正的研究趋势分析

由以上研究,还可以归纳出以下三个研究趋势:(1)从研究分析的测验形式来看,从纸笔测验形式发展到CAT模拟测验形式,在早期,多数研究者都从纸笔测验形式的角度来分析的;近年来,出现了使用CAT模拟测验的方法来分析(Chang&Ying,2002;Chang&Ying。2008;Rulison&Loken,2009);(2)从研究对象的角度来看,从整体分析被试在测验上的作答情况,发展到单独额外增加猜测现象或睡眠现象的方法来进行研究。在早期,多数研究者是从纸笔测验整体角度来分析被试猜测现象或睡眠现象,猜测现象和睡眠现象混合在测验的整体作答情况之中,研究者往往只是从测验整体上进行大致的分析研究。而最近两个研究(简小珠等,2006;Rulison&Loken,2009)通过研究设计,额外安排被试答对高难度试题的现象(猜测现象),或安排被试答错容易试题的现象(睡眠现象),使得对猜测现象或睡眠现象的研究分析更具有针对性。由这两个研究的结果可知,猜测现象肯定会导致被试能力高估现象,睡眠现象肯定会导致被试能力低估现象,而在早期研究者从测验整体分析时,只是模糊的认为猜测现象或睡眠现象会影响被试能力估计,没有得出肯定的结论;(3)从纠正方法的角度来看,从调整或删除被试作答情况的方法,发展到使用数学模型的方法来拟合被试作答情况,早期研究者往往是提出调整被试作答情况权重的方法,或采用删除被试作答情况的方法,来纠正被试能力高估现象或低估现象。而最近研究者提出使用四参数模型宋分析被试作答时的猜测现象或睡眠现象,从数学模型内部来纠正被试能力高估或低估现象,此外,已有的这些研究都只分析了两级记分模型下被试能力高估和低估现象,而在多级记分模型下是否存在被试能力高估或低估现象?以及如何进行纠正?这有待于研究者进一步探讨分析。

3 人格测验中非0下渐近线现象和非1上渐近线现象及其纠正研究情况

人格测验有多种类型,这里仅论述常用的、测查人格病理倾向、在人格维度分量表上累加记分的人格测验,比如MMPI-2,艾森克人格问卷,16PF人格测验等一些常用人格量表。许多研究者都对人格测验的作假现象进行了研究,骆方和张厚粲(2007)概述了以往对人格测验作假现象控制和识别的研究情况,并概括了预防控制、识别作假现象的6种方法:采用迫选式量表、使用警告语、使用假渠道技术这三种方法是事前控制技术;社会称许性量表(作假识别量表)、IRT识别技术、反应时技术是事后识别技术。然而,(1)采用迫选式量表、使用警告语、使用假渠道技术存在以下不足:在测验采用迫选方式会改变正常的测验情境,而使用警告语或者测谎技术,很容易影响被试作答的情境(骆方,张厚粲,2007);被试在人格测验的许多作假行为有时往往是无意识的,自己都无法意识到,那么警告语和使用假渠道技术是无法完全预防被试作答的作假现象。(2)社会称许性量表(作假识别量表)、反应时技术,用于作为识别被试作假行为,往往只注重识别被试的作假情况;通过这些方法识别出来后的被试,其作答问卷可能会删除,或要求被试重测。通过IR了识别技术,通过统计检验方法,也只能识别到了一部分作假比较严重的被试,而一些被试无意识中在一部分试题的作假行为可能无法识别,也无法纠

正。近年来,已经有研究使用IRT中的三参数Logistic模型和四参数Logistic模型来分析和纠正被试作假现象,这些方法在骆方等的论文没有涉及,下面将具体论述。

Rouse,Finger和Butcher(1999)在分析MMPI-2量表时中发现,在攻击性量表和负性情绪量表上的c参数估计值较小,小于0.10;而在精神质、强迫症、积极情绪量表的c参数估计值较高,而都在0.10至0.25,部分试题的c参数在0.30以上。Rouse等对以上现象进行进一步对测验数据的数据分析,认为主要是社会期望导致测验中被试作答存在非0下渐近线现象。

Reise和Waller(2003)使用单、两、三参数Logistic模型来分析MMPI-2的测验数据,发现使用这些模型都不能很好的拟合测验数据,而且发现有些项目存在非1上渐近线现象,但由于当时没有的四参数Logistic模型数据分析程序,Reise和Waller使用转换被试人格特征性质方向的方法即三参数模型的转换形式来分析测验中存在上渐近线的项目的拟合情况。在该论文中的应用意义部分,Reise和Waller认为在四参数模型能较好拟合被试作答的非。下渐近线现象和非1上渐近线现象,因而四参数Logistic模型可能成为未来研究的一个热点方向。在最新的WINS了EPS软件说明书中(Linaere,2009a),四参数模型项目参数估计程序引用的例子即是Reise等的研究论文。

2009年,多位研究者的合作编著《以数学模型为基础的心理测量新方向》即将出版,其中的一章内容是Waller和Reise将四参数模型应用于MMPI-2的研究报告(Waller&Reise,in press),该研究论文认为Ba~on等对四参数模型的研究方法不当,论据不够充分。而且Waller等概述了IRT方法在人格测量的应用,并论述了四参数模型近年来在人格测验中的研究情况,该研究报告是对Reise等的研究的继续发展,Wailer等应用四参数模型来分析MMPI一2测验数据,发现能较好地拟合存在上渐近线现象的测验项目,Waller等将四参数模型与三参数模型进行比较:(1)在估计被试人格特征方面,三参数模型下高人格特征被试的人格特征值容易被低估,而四参数模型下则不会被低估,(2)在测验精度方面。四参数模型的测验信息量在低分段(即能力区间1-4,0])要高于三参数模型,测验精度略好于三参数模型。最后,作者还进一步论述了c、Y参数在人格测验中的必要性:一是人格测验项目存在着极端性(即存在非。下渐近线现象和非Ⅱ上渐近线现象);二是人格测验项目上存在的“非对称的项目特征模糊性”(non-symmetric item ambiguity),即人格测验在人格特征维度上的一端测量可以模糊,而在人格特征维度的另一端的测量要求精确(not ambiguous),这时需要c或丫参数来反映,以得到更精确的测量。

以上人格测验的研究中,都使用了三参数模型和四参数模型分析测验数据,并拟合和纠正被试“作假”现象(包括非0下渐近线和非1上渐近线现象),以实现较为准确的测量。当然四参数模型作为一种拟合和纠正被试作假现象的方法,与目前其他被试作假现象的控制识别方法一样,也还在不断完善中,有待于进一步探讨和发展。

4 被试作答异常现象纠正的实践意义与研究进展

4.1 在能力测验中纠正被试作答猜测现象和睡眠现象影响的实践竟义

2000年ETS曾经让参加GRE测试大约0.5%的考生免费重考(Carlson,2000),许多研究者认为很可能是被试能力被严重低估而导致不可信,2002年,ETS再次被报道在CAT-GMA7测验中,有将近1000人的考生的分数估计不准确(能力被低估),这将影响这些考生被一流MBA学院录用的机会(Merritt,2003)。Rulison和Loken(2009)在四参数模型下进行CA了模拟研究,在初始阶段安排高能力被试答错两道相对容易的试题后(被试作答睡眠现象),发现被试能够在后面的试题作答中使得被试分数能够“爬回来”,达到高分区,从而达到模拟初值,能够纠正被试能力低估现象,Rulison和Loken的CA了模拟研究为解决CAT测验中存在能力低估的问题,提供一个很好的思路与解决方案。

而对于在传统的纸笔测验中存在着被试作答的猜测现象和睡眠现象,这时可以应用四参数模型宋纠正被试能力高估或低估现象的方法进行纠正,以得到更为准确的测量分析。

4.2 在人格测验中纠正非0下渐近线现象和非1

上渐近线现象影响的测量义

人格测验所测量内容往往涉及被试个人敏感的问题,而又不存在正确的答案,所以被试很容易对人格测验作假。被试在有意识或无意识中隐瞒自己真实情况或者按照社会期望的要求来回答,以及一些其他原因导致了被试作假现象,由于被试作假现象的存在,严重影响了人格测验的有效性,甚至导致人们有时怀疑人格测验的有效性,对测验作假现象的预防控制、识别、拟合、纠正,是每一个人格测验在编制、施测、分析测验数据和报告研究结果时都必须考虑的。而近二三十年来在许多研究者的共同努力下,已经发展了多种方法来预防、控制、识别被试作假现象(骆方,张厚粲,2007)。而IR7中四参数模型方法是近年来逐渐被关注和发展出来的方法,可以用来拟合和纠正人格测验中的非0下渐近线现象和非1上渐近线现象,是人格测验中拟合和纠正被试作答异常现象的新方法,Waller和Reise(in press)认为,四参数模型能较好拟合和纠正人格测验中的非0下渐近线现象和非]上渐近线现象,因而使用四参数模型可以提高人格测量的精度。

4.3 近年来四参数模型的研究进展情况

四参数模型在1981年提出来后(Barton&Lord,1981,),很长一段时间里(]981-2003年)都被研究者所忽视;而在最近几年(1003~2009年),四参数模型的研究较为活跃,重新被研究者关注(Wailer&Reise,in press)。除了本文前面所论述有关四参数模型的研究之外,还有以下研究者对四参数模型也进行了探讨。

Linacre(2004)从被试作答的潜在特质似然比的角度,论述区分度、猜测现象、疏忽现象都是试题的属性,并探讨c参数、v参数的初步估计公式。

Hessen(2004)在分析Logistic模型分类时,以四参数Logistic模型为基础,认为三、两、单参数Logistic模型是四参数Logistic模型的一个特例。而且通过分析被试作答的潜在特质似然比,从数学公式和理论上分析了c参数、Y参数的有关性质。Hessen(2005)进一步探讨了c’0时的

四参数Logistic模型,即三参数Logistic模型丫型的形式,而且把四参数Logistic模型进行改写成一个非参数IR7模型的形式,并对该非参数模型的一些数学性质等进行了探讨,以及应用于项目功能差异(DIF)的分析。

Emons。Siitsma和Mei5cr(2005)论述单、两、三、四参数模型的一致性,认为单、两、三参数模型是四参数模型的一个特例,并分析测验项目拟合情况时,同时也发现测验中的许多试题存在着非l上渐近线现象。遗憾的是,Emons等没有对此测验现象进一步的探讨。或许是由于当时没有四参数模型的项目参数估计软件,因而Emons等(2005)没有进一步分析。

2006年,Loken和Rulison使用贝叶斯估计方法实现了对四参数模型的参数估计方法(Loken&Rulison。2006:引自Waller&Reise",io press)。而Waller和Reise(in press)则使用蒙特卡洛马尔可夫链方法(MCMC方法),即Gibbs sampler方法应用于BRUGS(Thomas,2006),实现了对四参数模型的项目参数估计。

最新的IR7软件WINS7EPS(Linacre,2009a)包含了四参数Logistic模型的项目参数估计模块,可以登陆其网站下载试用版本(Linacre,2009b)。W1NSTEPS可以处理的最大值为10,000,000被试30,000试题,255得分等级。对于心理与教育测量中的几百人被试,几十道试题的测验数据,可以WINSTEPS在几分钟内完成四参数模型下的参数估计。所以,有了四参数模型的项目参数估计软件后,过去四参数模型应用的主要障碍(项目参数估计的运算复杂性和费时)就不再存在了,

由此可见,四参数模型的研究在近年来较为活跃。多位研究者对四参数模型的性质进行了探讨,进行了项目参数估计的研究,并且出版了用于分析测验数据的软件WINS7EPS。为四参数模型的广泛应用提供了坚实的基础。

5 小结

在能力测验中,被试作答的猜测现象会导致被试能力高估现象,被试作答的睡眠现象会导致被试能力低估现象。对于测验中的被试能力高估或低估现象,研究者已经提出了多种方法来纠正。四参数模型能适合被试的各种作答情况(包括被试作答时的猜测现象和睡眠现象),不需要调整或删除被试作答的原始信息,从数学模型内部能有效纠正被试能力高估和低估现象,因此在能力测验的研究分析中,可以使用四参数Logistic模型的方法宋纠正被试能力高估或低估现象。

在人格测验中,由于被试无意识的社会期望反应和掩饰防御反应等等,被试作答存在着非。下渐近线现象和非1上渐近线现象,会影响测验结果的准确性,目前研究者已经提出了多种预防控制、识别和纠正方法,而四参数模型能较好的拟合和纠正被试作答的非0下渐近线现象和非!上渐近线现象,提高人格测量的准确性,当然。四参数模型在人格测验中的研究与应用还需要进一步的探讨。

总之,在能力测验中,四参数模型能较好的纠正被试猜测现象和睡眠现象导致的能力高估和低估现象;在人格测验中,四参数模型能较好拟合被试作答的非0下渐近线现象或非1上渐近线现象,提高测量的准确性。

上一篇:移民文化适应的研究趋势 下一篇:演绎推理是基于规则还是模型?