【经典测验理论与项目反应理论之异同比较】 测验与量表的异同点
摘 要:本文主要从理论基础、题目分析和误差估计三方面对经典测验理论与项目反应理论的异同作一比较,并提出现阶段这两大测量理论仍将互补长短,共存发展。 关键词:经典测验理论 项目反应理论
自比纳编制测量理论以来,经典测验理论历经百年发展,围绕着实得分数与真分数和误差分数的关系已经建立起一套完整的测量理论与统计分析方法,是当前占据统治地位的测量理论。项目反应理论作为一种重要的现代测量理论,提出项目特征曲线,反映每道题目上被试某种反应的概率与被试的心理特质水平的关系,突破了若干经典测验理论一直以来无法解决的问题,具有广阔的发展前景。本文拟主要从理论基础、题目分析和误差估计三个方面对这两大测量理论的异同作一比较。
1 理论基础的异同
1.1理论基础的相同点
人的心理特质具有内在且无法直接测量的特点,所以在心理与教育测量中只能使用间接测量的方法。经典测验理论与项目反应理论使用的都是间接测量方法,透过被试外在可观察的行为反应估计被试内在的心理特质水平。
1.2理论基础的不同点
经典测验理论以真分数理论为基础,建立在实得分数X与真分数T和误差分数E的关系上。真分数理论的数学模型为:X=T+E。在此基础上推导出来的一系列假设都容易得到满足,所以属于弱假设。项目反应理论的理论基础为潜在特质理论,并需要满足一维性假设、局部独立性假设,实际上,这些假设都很难实现,因此是强假设。
由于经典测验理论的弱假设能被大多数测验满足,所以应用广泛,但同时存在的问题是,经典测验理论认为实得分数X与真分数T存在线性关系且真分数T与误差分数E不相关,这两个假设都不符合事实,必然导致经典测验理论测量误差增大。而项目反应理论的一维性假设对测验要求较严格,一方面限制了项目反应理论的应用范围,另一方面也提高了测量的准确程度。
此外,经典测验理论采用的是线性确定性模型,忽略了在某次测验中可能存在的猜测和遗忘等其它因素的影响。项目反应理论使用的是非线性概率模型,只是对被试在某次测验中作出某种反应的概率作出估计,与实际更为接近。
虽然理论模型不同,但经典测验理论与项目反应理论都能有效测量到被试的心理特质。相对来说,经典测验理论是用被试测验的实得分数X直接估计被试的特质水平,项目反应理论则是用项目特征曲线为中介对潜在特质θ作间接估计。
2 题目分析的异同
2.1题目分析的相同点
经典测验理论与项目反应理论各有一套对题目进行分析和筛选的方法。两者大相径庭,但都采用了难度和区分度作为题目分析的指标,并且都能有效地对客观题作题目分析。
2.2题目分析的不同点
经典测验理论与项目反应理论作题目分析时,两者各有所长,主要有以下几点不同:
(1)项目反应理论的题目参数具有样本独立性,经典测验理论的题目分析对样本依赖性大。
因为经典测验理论属于随机抽样理论,所以在其基础上编制的测验强调所抽取样本的代表性。题目统计量难度以通过率P来表示。如果抽取的被试的水平高,则通过率高,题目难度低;反之题目难度则高。另一题目统计量区分度通常以鉴别力指数D作为指标。当样本同质性高时,高分组和低分组的得分差异不大,D较小,则区分度低;当样本异质性高时,高分组和低分组得分差异较大,D也会较大,此时区分度则高。可见,经典测量理论下进行题目分析,题目统计量的估计随样本变化而变化。
除了难度与区分度,项目反应理论还加入了猜测度这一新概念作为题目参数。另外,项目反应理论采用项目特征曲线作为刻画题目特征的核心。只要样本容量足够大和选用了适当的数学模型,并通过了拟合度检验,项目特征曲线就能与所得数据很好地拟合,这时,题目参数固定不变,不受取样变化的影响。题目参数的这一性质为实现测验等值与建立大规模的题库提供了条件。
(2)项目反应理论将难度参数与能力参数置于同一度量系统,而经典测验理论的难度统计量与被试特质水平的估计脱节。
经典测验理论的统计量难度的指标为通过率,以全体被试作为参照系;而对被试特质水平则以实得分数来评价,参照系是测验的所有题目。由于对难度和特质水平的估计采用了不同的参照系,所以即使计算出题目的难度,对评价特定被试的特质水平指导意义不大,也无法针对特定被试的水平选择最适当的测验题目来施测。项目反应理论把难度参数与能力参数置于同一量纲,一方面使在不同测验或不同样本条件下对被试潜在特质水平的估计不变和可进行比较,另一方面还为自适应测验的实施奠定了基础,大大有利于提高测量的精度,减少测量误差。
(3)与经典测验理论相比,项目反应理论对样本容量要求高得多。
项目反应理论作为一种具有蓬勃生命力的现代测验理论,毫无疑问拥有一些经典测验理论无法比拟的优越性,但这些优点都必须在样本容量足够大的条件下才能够体现出来。一般来说,项目反应理论要求样本容量在1000人以上,项目特征曲线都能较好地拟合。相对而言,经典测验理论对样本大小的要求就低得多。
(4)经典测验理论能有效分析主观题,项目反应理论只限用于二级计分模型。
对主观题作题目分析时,项目反应理论束手无策,而经典测验理论仍可以提供难度、区分度等统计量。尽管经典测验理论对主观题分析的精确度不太高,但仍不失为一种有效的分析方法。目前,项目反应理论还只适用于二级计分模型,对多级计分模型,也都是将其转化为二级计分模型才能处理。这使项目反应理论的应用囿于客观题的范畴,极大地限制了项目反应理论应用的空间。
(5)项目反应理论对运算的要求远远高于经典测验理论。
因为项目反应理论需要对题目参数与被试能力参数不断地进行拟合,其中包含了大量繁杂的运算,所以项目反应理论必须借助于计算机软件才能应用于实际。而经典测验理论将心理特质看成一个连续变量,通常使用的统计量是平均数与方差,相比之下,运算简单得多,即使在过去完全依靠手工计算的时期,也没有妨碍经典测验理论得到广泛应用。
3误差估计的异同
3.1误差估计的相同点
所有的测验都希望能尽可能准确地测量所测特质,减少测量的误差。经典测验理论与项目反应理论都能对全体被试的测量误差作出估计。
3.2误差估计的不同点
经典测验理论与项目反应理论采用不同的指标来衡量测量误差的大小。经典测验理论通过信度的概念来评价测验误差。平行测验理论是测验信度建立的基石,但严格的平行测验并不存在,实际计算得到的信度其实是低限估计,因此作为评价测量误差指标的信度其本身的准确性就受到质疑。此外,经典测验理论假设测验对所有被试的测量误差相同,只能计算出被试的平均测量误差,忽视了同一测验对不同水平被试测量误差不同的客观事实,导致信度代表的测量误差意义不明确。
项目反应理论提出了题目信息函数和测验信息函数两个新概念,两者反映的分别是特定题目与整个测验所提供的信息量。这两个信息函数与被试潜在特质的水平直接有关,所以不但能求出全体被试的测量误差,更有意义的是,还可以对不同水平的被试也求出测量误差,大大提高了测量的精度。因此,项目反应理论以题目信息函数与测验信息函数替代了经典测验理论中反映测验误差的信度。此外,这两个函数还可用于筛选题目,选用信息量大的题目构成测验,缩短测验长度,提高效率。
此外,经典测验理论使用效度对测量的系统误差也作出了估计,而在项目反应理论中没有提出相应的概念。
小结
诚然,经典测验理论发展至今,其自身无法克服的缺陷日益突出,而项目反应理论在题目参数稳定性、对测量误差的评估等多个方面都弥补了经典测验理论的不足。但是,项目反应理论对一维性假设的条件实际应用时常常不能得到满足,要求采用很大的样本和适当的模型,不能用于分析主观题和多级计分模型,没有论及测验的系统误差,这些缺点也大大地限制了项目反应理论的应用。
现阶段,经典测验理论与项目反应理论这两大理论仍将互补长短,共同发展。只有在项目反应理论的研究取得以上不足的突破性进展后,项目反应理论才有可能取代经典测验理论一直以来在测量领域的统治地位。
参考文献:
[1]张敏强.教育测量学.北京:人民教育出版社,1998:135-143.
[2]戴海崎,张锋,陈雪枫主编.心理与教育测量学.广州:暨南大学出版社,1999:423-441.
[3]唐玉宁.三种心理测量理论的信度观.心理学报,1994,17(1):33-38.
[4]赫云鹏,王俊秀.关于心理测验理论模式的比较.内蒙古师大学报(哲学社会科学版),1997,(4):32-36.
[5]郭庆科,房洁.经典测验理论与项目反应理论的对比研究.山东师大学报(自然科学版),2000,15(3):264-266.
[6]俞晓琳.项目反应理论与经典测验理论之比较.南京师大学报(社会科学版),1998,(4):74-77.
[7]李黎.项目反应理论在心理测量学中的地位.绍兴文理学院学报,1999,19(3):114-117.
