Rasch模型的应用Word下载.docx

资源描述

Rasch模型的应用Word下载.docx

《Rasch模型的应用Word下载.docx》由会员分享，可在线阅读，更多相关《Rasch模型的应用Word下载.docx（13页珍藏版）》请在冰豆网上搜索。

Rasch模型的应用Word下载.docx

研究者们对如何确定等级量表的选项没有达成一致意见，所以有必要对等级来量表的选项功能进行研究。

恰好Rasch分析（Rasch，1960）能提供一个有效的框架，在该框架内，可以验证、改进等级量表选项的功能。

2等级量表的Rasch测量模型

Andrich（1978）提出了在顺序等级量表上建构了测量的一个基本的Rasch模型（ratingscalemodel，RSM）：

log（Pnik/Pni（k-1））·

Bn–Di-Fk

（其中，Pnik是被试n在项目i上选择选项k的概率；

Pni（k-1）是选择选项k-1的概率；

Bn是被试n的能力或态度等；

Di是项目i的难度；

Fk是指选项k和选项k-1之间的“距离”或“差异”，选项用0到m进行编码，称Fk为第k个等级标度（stepcalibration），Fk即是等级量表的临界值，其被界定为是与相邻两个选项k和k-1的选择概率相一致的定位。

）Rasch模型将被试的特质水平和项目的难度都放在同一个量尺（logit量尺）上来进行度量，其最大的优点就是可以直接对这两个参数进行比较。

相对同类其它模型来说，它最重要的理论特征就是具有“客观性”（Rasch，1977），因为比较两个项目的难度不依赖于被试的能力，而比较两个被试的能也不依赖用于测量的项目。

在“部分计分（partialcredit）”的项目中，该模型可简化为：

Bn-Dik

这就是部分计分Rasch模型（partialcreditmodel，PCM），但为了方便，在限制条件∑Fik=0，∑Dik=∑Di下：

重新令Dik=Di+Fik。

RCM只是PCM的一个子集，因为RCM规定所有项目之间的等级间距要相同，而PCM没有规定。

Rasch等级模型不仅满足从顺序研究中创建线性测量的条件和需要（Fischer，1995），还能为等级量表的施测提供基础。

某些Rasch参数（如临界值）还能够反映出等级量表的结构（Andrich，1978）。

3Rasch模型对项目选项分类的检验

要对量表的质量进行检验，最有效的方法是先对它的选项分类进行检验。

典型的Likert量表有5个选项分类（非常反对、反对、不确定、同意、非常同意），这五个选项分类之间的间距及尺寸大小是一样的，含义即这些选项同等重要，要求得到被试同样的注意。

从测量的角度看，等级量表虽有不同的选项分类设置，但选项分类之间仍形成清晰的等级，并囊括了全部潜在变量（如图1所示）。

但变量的概念是无限的，使得两端选项分类的宽度无限。

比如一个被试选择了“同意”，就可以假定他的同意程度已经很强烈了，“同意”选项涵盖了更多的潜在变量（“同意”选项的空间尺寸较大）。

中间选项的空间尺寸大小取决于被试对其的理解和使用，将中间选项“不确定”换成“不知道”、“不在乎”、“不肯定”等表述不仅会影响它的心理学意义，还会影响其所囊括的潜在变量的数量，它的尺寸如图2所示。

一般来说，被试都有社会遵从的倾向，即多赞同或少冷漠，“同意”选项通常比“反对”更具吸引力。

因此“同意”选项倾向于涵盖了潜在变量的更宽范围。

实际上，数据不能完全符合Rasch模型的规定。

但从解决问题这一目的来看，只要理论结果与实际近似就行，不需要有多精确（Laudan，1977）。

图1典型的Likert量表

图2潜在变量

3.1如何确定选项分类

比如要求被试对“老板支持我的工作”这一观点的认同度作出反应，被试做出的选择将取决于量表所提供的反应选项的数量及类型。

下面有三个按钮A，B，C（图3）：

从选项分类来看，按钮A被设计成为“是非”题的形式：

老板要么支持要么反对我的工作。

按钮B允许被试保持中立，不逼迫其作出极端选择。

按钮C对变量的概念作了更多的界定，将被试所感知到的支持程度描述成连续的，明显优于其它按钮。

通过选项分类的形式来设计等级量表，等于是将量表创建者关于支持的观点传达给被试。

但在实际情况中，被试需要更多的选项分类来表述自己的观点吗（正如按钮C）？

如果有更多的选项分类可供选择，被试实际上会用到这么多吗？

对于被试来说很完美的选项分类数量和类型是否对测量分析也很完美？

这些疑问都指向同一个重要的问题：

对于最优的变量测量，选项分类的实际数目应是多少？

相当多的研究尝试解决怎样确定等级量表的选项数目这个问题？

判断选项分类最佳数目的一般标准是反应信度。

但是研究者在信度问题上得出的结论却很混乱：

有的学者认为信度和分类选项的数目之间是相互独立的（Bendig，1953；

Brown，Widing，&

Coulter，1991；

Komorita，1963；

Remington，Tyrer，Newson-Smith，&

Cicchetti，1979）；

另一些学者认为7点量表的信度最高（Finn，1972；

Nunnally，1967；

Ramsay，1973；

Symonds，1924）；

或者是7点量表加2或减2（Miller，1956）；

也有的认为是5点量表（Jenkins&

Taber，1977；

Lissitz&

Green，1975；

Remmers&

Ewart，1941）；

还有的认为是4点量表或3点量表（Bendig，1954）。

下面是一个常见的7点量表：

使用按钮D的等级量表是否比使用按钮A、按钮C的量表更加有效？

增加更多的选项分类是否有用？

研究表明，尽管增加选项分类会使得信度提高，但仅限于选项分类增加不是随意的（Linacre，1995；

Wright&

Linacre，1992）。

比如按钮D中，选项分类5与6之间的区别模糊，让被试感到很迷惑，最终使得分数的意义不大（Fox，Gedeon，&

Dinero，1994）。

正如Chang（1994）所阐述的那样，允许被试在模糊的参照框架中自由选择，增加可供选择的选项分类会增加误差。

在此种情形下，通过量表，被试与调查者之间对同一问题的理解可能会不一样。

比如，两个被试所感知到的支持程度是一样的，其中一个选择5而另一个选择6，仅仅是因为引入的选项类别过多导致变量的概念混乱了。

按钮A和按钮B的选项分类界定要比按钮C精炼得多。

其实对于等级量表来说，实际上并不存在固定的最佳选项分类数目。

5个选项分类的量表对某个测量来说有效，而“是”“非”类型的分类可能对另外一个测量来说却是最适合。

因此，当调查者设计不同的量表时，或用同一量表测试其他的被试时，都要重新确定最佳的选项分类数目。

所以分析时需根据你想测量的具体对象来确定等级量表的最佳选项分类数目，而不仅仅就是为了确定而确定（Lopez，1996）。

3.2如何确定选项的标签

和选项分类不同，但也密切相关的是选项分类的标签。

看按钮E和F：

按钮E比F比较模糊，因为一些选项分类没有标签。

按钮F的标签很明确，并且设计积极的，选项分类标签中包括了三个“同意”选项，但只有两个“反对”选项。

在等级量表中，从按钮A到按钮F都包括了某种假设：

即被试能感知变量概念，并通过等级量表将这种感知和创建者进行有效交流。

这种假设需要用实证研究来进行检验。

对量表的质量进行检验就相当于对这一假设进行检验。

Rasch模型能够提供一些测量指标（即Rasch参数）来对这一假设进行检验。

4对等级量表进行Rasch分析

设计等级量表所面临的核心问题是：

从被试和项目上所收集到数据是否可信？

选项分类和Rasch模型是否能充分拟合？

临界值能否显示出等级量表中的层级？

每个选项分类上是否有足够的数据来提供稳定的参数估计？

本文以贵州师范大学共90个大一新生在症状自评量表的数据为例子，运用Rasch模型分析软件winsteps对SCL-90在该样本上的有效性进行检验，演示如何运用Rasch模型来设计和修订等级量表。

要对等级量表进行Rasch分析，首先要估计量表项目的维度。

因为Rasch模型最关键、最基本的假设就是量表项目要具有一维性。

可以使用非加权最小二乘法来对收集到的数据做探索性因数分析（Muthen&

Muthen，1998）。

如果项目的第一个特征根的值比第二个特征根的值大很多，而第二个特征根和其它的特征根相差不大，就可以初步判断项目是一维的（Hambleton&

Traub，1973；

Lord，1980）。

本研究中，第一个特征根值为26.5，第二个第三个第四个依次是3.9，3.4，3.0。

符合Rasch模型的假设。

4.1Rasch参数：

选项频率及平均测量值

评估选项分类是否有效，最简单的方法就是使用统计指标（如选项分类频率、平均测量值）对每个选项分类进行检验（Andrich，1978，1996；

Linacre，1995，1999）。

选项分类频率（categoryfrequencies）是指选择某一选项分类的被试的数量，其值等于在所有的项目上选择某一选项分类（如选项分类“1非常反对”）的被试的总和。

选项频率反映了所有选项分类的反应分布，能对等级量表进行基础快速的检验。

选项频率有两个主要的特征：

选项分布形态和每个选项分类的作答数量。

常规分布有一致分布、正态分布、双峰分布、轻微偏态分布，非常规分布包括高偏态的分布（即选择数少的选项其分布形态有着一条长尾巴，Linacre，1999）。

常规分布要优于非常规分布。

但在临床症状数据中呈现偏态分布比较常见，那些症状明显的病人，其位置一般位于长长的尾巴上。

频率低的选项一般是有问题的，因为它们没有为估计稳定的临界值（thresholdvalues）提供足够的数据。

选项频率很低就意味着它是不必要的或多余选项。

因此，这些选项应该合并或压缩到相邻的选项上。

如果在某一选项上反应的数量少于10，这个选项就需要修订（Linacre，1999）。

平均测量值（averagemeasure）能直观有效地检验等级量表的选项。

其定义是被试中选择某特定选项分类的所有被试的平均能力估计，即计算出的选择某特定选项类别的所有被试的平均能力（Linacre，1995）。

表190个被试的SCL-90的选项频率及平均测量值

选项分类标签选择数量平均测量值

（Categorylable）（ObservedCount）（AverageMeasure）

136152.80

229651.00

31019+0.11

4369+1.07

5128+2.49

当变量增加时，平均测量值也会随之增加。

并且平均测量值的增加是单调性的。

意思是，平均而言，那些有着高能力或态度强烈的被试会选择更高的作答选项分类，而低能力或态度不强烈的被试会选择较低的作答选项分类。

当违背了这种形式，就表示平均测量值没有显示出单调性，那可能就需要对作答选项的分类进行合并。

表1以SCL-90量表为例，它有5个选项分类，有4个等级的量表。

例子中的选项分类频率（如选择数量）呈现正偏态的分布，每个选项分类上的选择数均大于10个，符合Rasch模型的规定。

选项分类1的平均测量值是-2.80，意思就是在SCL-90量表中，选择选项分类1的被试其症状平均符合度的估计值是-2.80或其logit分数是-2.08。

选择选项分类2的被试，其平均符合度的估计值是-1.00，表明选择选项分类2的这些被试他们的症状符合程度要比选择1的高。

从表1中可以看到，平均测量值符合Rasch模型的规定，因为它们都呈单调递增。

4.2Rasch参数：

临界值和选项拟合

除了选项类别频率和平均测量值之外，其它描述等级量表特征的指标还有临界值（thresholds）和选项分类拟合值（categoryfit）。

临界值（也称等级刻度，stepcalibration）最难估计，原因是很难真正区分一个选项和另外一个选项之间的区别，如很难评估“非常同意”和“同意”之间的真正区别。

与平均测量值一样，临界值也是呈单调顺序增加的。

如果等级量表的临界值不是呈单调递增，那么可认为这个量表的等级是混乱的。

估计相邻两个临界值之间的距离的大小也很重要，临界值之间的距离指的是变量的每个等级在量尺上的不同位置。

在logit量尺上，这个距离不能太小也不能太大。

一般来说，临界值至少要以1.4logit的量增加，才能显示出两个选项类别之间的差异，但增量不要超过5logit，避免变量等级之间的间距过大（Linacre，1999）。

要研究临界值之间的差异，最直观的一种方法就是看概率曲线（probabilitycurves）。

概率曲线能显示等级量表中被试选择各个选项分类的概率。

在概率曲线图中，每一选项分类都有一个明显的波峰，这个波峰表明在所测量变量的某部分上，这一选项分类是最可能被选择。

若图中的某个选项分类的形状是平直的，并且涵盖了变量的大部分，这种情况还是可行的，但是若这些呈平直形状的选项分类被其它选项分类的概率曲线图遮住，那它们可能对界定变量的区别作用不大。

因此，选项间的临界值有问题，其概率曲线图就比较混乱或靠得较近，在变量上只有一小段跨度很小的平直曲线。

图3SCL-90的5个选项分类的概率曲线

图1是SCL-90所有选项分类的反应概率图，它给出了任意被试的能力与项目难度之间的差异估计。

例如，一个被试的能力1logit，比项目的难度低，位于x轴上-1的位置，他选择选项分类1的概率几乎为0，选择分类4的概率大约为0.03，选择分类1和3的概率大约为0.2，选择分类2的概率大约为0.5。

所以该被试在这个项目上最可能选择选项分类2。

如果被试的能力高于某给定项目的难度，如在x轴上+2的位置，那他最可能选择的选项应该是5。

表290个被试的SCL-90的选项临界值

选项分类标签临界值

（CategoryLable）（Threshold）

1None

21.56

30.03

40.05

51.08

表2是对SCL-90的临界值的估计，它与图1中选项分类的交叉点是一致的。

估计的每个临界值表示了所测量变量的相邻两个选项分类之间的等级差异。

例如，表2中的第一个临界值是-1.56，找到图1中选项分类1与2的的交点，通过这一交点作x轴的垂线，垂线与x轴的交点是在-1.56处。

从表2中可以看出。

除第一个和第二个临界值之间其增量大于1.4logit之外，其余各分类的临界值之间的差异都小于1.4logit，这里的分析结果表明SCL-90的选项分类3、4和5之间的等级差异不是特别明确清晰，差异之间大小也不是等距的。

这有可能是被试太少，或量表在修订是时候，在语言理解上，存在中西方的差异。

不拟合均方值（outfitmeansquares）是选项拟合值之一，它是评估等级量表质量的另外一个标准，不拟合均方值大于2表明没测量到的变量信息比测量到的多（Linacre，1999），也就是某些选项分类将噪音引入了测量过程。

在下一步的实证调查中，可能要将这样的选项分类压缩到邻近的选项中。

表3显示了SCL-90的每个分类选项与线性Rasch模型的拟合情况。

所有的不拟合项目均方指数均小于2，均符合Rasch模型的规定。

表390个被试的SCL-90的选项分类拟合

选项分类标签拟合均方值

（Categorylable）（OutfitMeanSquare）

10.99

20.87

30.96

41.13

51.54

5总结

本文以SCL-90的测量数据为例子，展示了Rasch模型分析在等级量表的设计和评估中的用法及功能。

因为Rasch模型是一个先验模型，它的一个重要的特点就是数据要拟合模型，而不是让模型去拟合数据。

前面讨论的有关等级量表诊断指标包括选项频率、平均测量值、临界值、概率曲线和选项分类拟合，在用这些指标去检验量表质量的时候，应当将它们联合起来运用。

其实，它们都是从不同侧面来检验同一个问题。

例如：

如果某一选项分类的频率太低，那临界值的排序是混乱的，等级量表上每个选项分类的概率分布曲线也没有明显的波峰。

同样的，平均测量值的排序也是混乱，并且拟合统计指标比预期的大。

并不是每种情况下所有的指标都出现上述的情况。

但当联合使用这些诊断指标时，可以有效指出等级量表中需要修改的地方，以提高等级量表的信度和效度。

参考文献

晏子（2010）.心理科学领域内的客观测量——Rasch模型之特点及发展趋势.18（8）:

1298-1305

赵守盈,薛雯（2011）.Rasch模型和IRT在学生成就测验统计分析中的对比研究，中国考试，6：

8-12

Andrich,D.A.（1978）.Aratingformulationfororderedresponsecategories.Psychometrika,43,561-573．

Andrich,D.A.（1996）.Measurementcriteriaforchoosingamongmodelsforgradedresponses.InA.vonEyeandC.C.Clogg（Eds.）Analysisofcategoricalvariablesindevelopmentalresearch.OrlandoFL:

AcademicPress.Chapter1,3-35.

Linacre,J.M.（1995）Categoricalmisfitstatistics.RaschMeasurementTransactions,9,3,450-1.

LinacreJ.M.（1999）Investigatingratingscalecategoryutility.JournalofOutcomeMeasurement,3:

2,103-122.

LinacreJ.M.（2002）.OptimizingRatingScaleCategoryEffectiveness.JournalofAppliedMeasurement,3

（1）85-106.

Lopez,W.（1996）Communicationvalidityandratingscales.RaschMeasurementTransactions,10,1,482.

Nunnally,J.C.（1967）PsychometricTheory.NewYork:

McGrawHill.

Roberts,J.（1994）.Ratingscalefunctioning.RaschMeasurementTransactions,8,386.

TrevorG.Bond,&

ChristineM.Fox（2007）.ApplyingtheRaschModel:

FundamentalMeasurementintheHumanSciences.LawrenceErlbaumAssociates,219-233.

Wright,B.D.&

Masters,G.N.（1982）RatingScaleAnalysis.Chicago:

MESAPress.

Zhu,W.,Updyke,W.F.&

LewandowskiC.（1997）Post-HocRaschanalysisofoptimalcategorizationofanorderedresponsescale.JournalofOutcomeMeasurement,1:

4,286-304.

AppliedRaschModelinginRatingScaleDesign

ZhaoShou-YingZengWei

（SchoolofEducationScience,GuizhouNormalUniversity,Guiyang,550001）

AbstractRaschmodelisaprioriprobabilitymodel,Meansthatthedatashouldfitthemodelratherthanthemodelfitthedata.AmajoradantageofRaschmodelisthedirectcomparisonoftwoparameters（theperson’straitlevelsanditemdiffcultylevels）onacommonmetric（logit）.OneofthemostimportanttheoreticalmeritsofRaschmodelisits“specificobjectivity”.ThebasicRaschmodelisadichotomousresponsemodel,itcanbegeneralizedtopolytomousitemswithorderedcategories.TheformulationofanextendedRaschmodelincludesthepartialcreditmodel（PCM）andtheratings

展开阅读全文