考卷效度等Word文件下载.docx

资源描述

考卷效度等Word文件下载.docx

《考卷效度等Word文件下载.docx》由会员分享，可在线阅读，更多相关《考卷效度等Word文件下载.docx（11页珍藏版）》请在冰豆网上搜索。

考卷效度等Word文件下载.docx

-1≤D≤1，当D=1时，说明高分组的同学100%通过，低分组的同学通过率为0.当D=0时，高分组好低分组的学生通过率相同，试题没有区分度。

一般情况下，试题的区分度D值大于0.3时，题目可以接受了。

高低分数组的划分：

一般情况下，根据试卷总分将考生排队，从高分端好低分端分别取27%的考生组成高分组好低分组，其余46%的考生不作分析。

当样本团体过小时，划分的比例可以适当提高。

三.信度是指其可信度，既是在多大程度上是正确的，效度是指能够多有效的表示所需表达的含义。

以一份量表（测量智力，记忆力之类的标准化试卷）为例，其信度就是指同一个人在几次参加同一份试卷的考试（假设此人并未有改变）分数不会有大的差异，而效度是指这份试卷能够多大程度测量你的智力水平。

信度指的是测量结果的稳定性和可靠性。

由于一个人的知识和能力水平是相对稳定的，在相当一段时间内不会发生太大的变化，所以一份试卷若能够真实反映学生的知识和能力水平的话，那么考试结果也应该是稳定的。

信度高的试卷就好比一把尺子，只要操作方法得当，无论何时、何人去测量同一张桌子的高度，所得到的结果应该是基本一致的。

如果所用的是一种具有较大弹性的皮尺，则不同的人或同一个人在不同的时候去测同一张桌子的高度，其结果会有较大的差异。

所以，为避免试卷中出现此类误差，必须检验其信度。

四、效度

试题的难度系数与区分度分析

教研之窗2010-11-2622:

05:

04阅读35评论1

字号：

大中小

一、试题的难度分析：

难度系数（P）=该题平均分/该题满分，P值越大，题目越容易，难度越低。

当考生的人数较多时，可以根据时间的总分分成三组：

分数最高的27%为高分组，分数最低的27%为低分组，中间的46%为中间组。

例如：

某同学想用一只开关控制两只灯泡，要求开关闭合时，只有一只灯泡发光，断开开关时两只灯泡均发光，则下面的电路图正确的是（B）

选项分析结果

组别

各选项选择百分数（%）

总体

高分组

100

低分组

该组有80%的人通过，表明这道题目偏容易（难度系数为0.8），选项分析的结果表明，对正确选项B，高分组的选择率为100%，低分组的选择率与高分组有一定的差距；

而且对D选项，高分组每人选，而低分组有32%的人选择，说明D选项对低分组的学生很有迷惑性，对高分组不具有迷惑性。

总体来看，该题是可以接受的，如果能对C选项进行适当的修改提高试题的迷惑性的话，该题更有效。

主要用于评价以选拔为目的的考题。

鉴别力指数：

D=高分组通过率（PH）－低分组通过率（PL）。

D值越高，题目越有效。

鉴别力指数高于0.4以上区分度很好，0.3~0.39良好。

0.2~0.29，尚可，须改进。

小于0.2区分度很差。

下面的例子说明如何对题目进行区分度分析：

按照提示，填出课文原文：

1、

开发大西北，我们实施了退耕还林、退耕还草的绿色生态战略。

可以料想，不久的将来，古人吟唱的“_____，______，_____________”的良好生态环境必将在大西北重现。

（用《敕勒歌》中词句填写）

2、

美国大唱所谓的“人权”，其实是_______________，目的在于干涉他国内政。

（用《醉翁亭记》中的一句话填写）

区分度结果分析

题号

平均分

满分

难度系数

高分组得分率

低分组得分率

鉴别力指数

0.8

0.4

92.5%

0.885

0.9

0.45

88.5%

7.5%

0.808

上面两个小题的区分度（鉴别力指数）都达到了非常优良的水平，能够很好地对不同能力的考生进行区分。

难度与区分度、信度、效度

浏览量:

15277　发表日期:

2008-3-7　来自:

市教育局办公室

【字体：

大中小】

平均分（mean）表示考试分数的集中趋势的一种统计量，也是教育测量中使用最为广泛的一种统计指标。

平均分一般计算公式：

（公式01）

式中，

为平均分；

为学生I的考试分数；

N为参加考试的学生数。

平均分的基本作用在于它可以作为一组分数的典型代表，其代表性优于中数、众数。

平均分数具有下列基本性质：

●

平均分是由全部分数求出的。

每个分数与平均分的离差之和等于零，说明平均分数是各个分数的中心。

当分数分布呈正态时，平均分位于分布曲线的中点并和曲线的最高点相对应。

各个分数与平均分数的离差的平方和比各个分数与其他任何集中量数的离差的平方和都小。

难度（difficulty）难度与区分度、信度、效度并称为“考试四度”，是控制考试质量的一个重要指标，也是试卷编制中特别关注的一个要素。

难度又有试题难度和考试难度之分，前者是反映题目难易程度的量化指标，有时也称作试题难度系数，通常用该题目的答对率或平均得分率表示，而后者则是所有试题难易的综合反映，在考试分数控制、成绩解释上更为重要。

试题难度试题难度值与试题实际难易程度正好相反，越大表示试题越容易，而难度制越小则试题越难。

试题越难（试题难度值越小），说明能够正确解答该题的学生越少，或该题的得分越低。

主观题（答对得分、答错不得分）的试题难度用答对题目的人数与参加考试总人数的比值表示：

（公式02）

式中：

为i试题难度，

为答对该题人数，

为总人数。

而试题使用连续分数计分时，试题难度则用参加考试的全体学生在该题的平均得分与该题满分的比值表示：

（公式03）

为该题平均得分，

为该题满分值。

在试卷编制中，不同难度的试题在考试中扮演着不同的角色，不同难度试题的组和不但直接影响试卷难度和平均分数，进而影响对考生成绩的解释，还对成绩分布具有重要影响，从而影响考试深层的质量特性。

为了确保每一道试题在考试中发挥应有的作用，一般将试题难度值控制在一定的范围内，通常是在0.5

0.2之间。

考试难度又称试卷平均难度或加权试卷平均难度，其计算公式：

（公式04）

P为考试难度，

为i题的加权系数，

为i题的试题难度。

因为

，可以证明：

（公式05）

因此，计算考试平均分数后，可以通过上式方便地算出考试难度。

标准差（standard）它是描述一组分数离散情况的最常用、最可靠的统计量数，标准查核平均分一样，也是计算其他统计量数时常用的基本数据之一。

计算公式：

（公式06）

式中各符号与公式01意义相同。

利用标准差对试题质量进行初步评价时，主要是看学生考试分数的离散情况是否与学生以往学习成绩的实际分布一致。

如果学生学习成绩比较整齐，考试结果分数分布应相对集中，此时分数的标准差较小才符合学生的实际情况；

相反，如果学生成绩参差不齐，考试分数的标准差较大才符合学生的实际情况。

只有当标准差表明的考试分数的离散情况与被测学生群体的实际情况一致时，试题质量才有可能是合格的。

区分度（discrimination）测量理论对考试的区分度十分重视，称之为判断考试是否有效的指示器，并作为评价试题质量、对试题进行筛选的主要依据。

区分度概念指考试对学业水平不同的学生区分程度或鉴别能力。

某一道试题在学业水平、实际能力较高的学生都能答对，而学业水平、实际能力较低的学生都答错，则认为该题目有好的区分度（试题区分度）。

具有良好区分度的试题组成的试卷，实际水平高的学生应该能够获得较好的成绩，实际水平低的学生应该不能通过获得分较低。

研究发现：

当考试是以选拔为主要目的时，具备良好的区分度的考试才会满足考试效度要求；

考试的信度随考试区分度的提高而增加，且前者的增加速率更快；

试题的难度与区分度关系密切，在难度接近于0.5时，区分度量值接近最大，但区分度相同的考试其难度值可能不同。

在编制是卷时，难度小的试题主要区分低分组学生，难度大的试题区分高分组学生，为适应对全部参考学生都能区分，需要对试卷中全部试题的难度、区分度做综合考虑。

试题区分度与试题难度一样，属于试题库建设题目优化的控制指标，本文仅提及而不做讨论。

区分度计算最常用的计算方法是极端分组法，该方法计算简单，适合一般考试的总体区分度分析。

该方法是通过比较两个极端效标组（高分组和低分组）的差异来估计试题区分度的。

计算如下：

（公式07）

为区分度，

和

分别为高分组、低分组学生的平均得分，M为该次考的满分值。

高分组和低分组的划分是将考试学生的成绩由高到低的顺序依次排序，然后取其上端一部分为高分组，取其下端一部分为低分组。

对于极端分组的人数应占全部被测学生多大比例要视成绩分布的具体情况而定，如果考试成绩分布符合正态分布，则高分组和低分组最佳比例均为27%；

如果考试成绩分布较平坦则比例应略高于27%；

反之比例可低一些；

一般情况下，其比例值介于25%—33%之间。

测量结果的评价使用上述算法，通常考试区分度数值应大于0.2。

考试信度（reliability）评价考试结果的稳定性是用考试信度（或测验信度）估计的。

由于任何考试结果都因考试误差的客观存在而受到或多或少的影响，因此百分之百可信的考试几乎无法得到。

考试信度就是推测考试可信与否的最重要量化指标。

实际测量中多采用分半信度和同质性信度两种算法。

分半信度采用分半法（split-halfreliability）考试信度是将考试施测于某被试总体，然后将考试分半，再求被试在每一半考试上的分数的一致性程度。

具体方法是将奇数题组成一个部分，偶数题构成奇数题的复本。

计算两半考试得分的皮尔逊相关系数（Pearson’sproductmomentcorrelation）（公式08），再采用Spearman-brown公式（公式09）矫正。

（公式08）

（公式09）

为皮尔逊相关系数（又称为分半信度），

为矫正后的信度估计值，

为配对后某对奇数题、偶数题得分值，

为成对试题数目。

使用要求：

①奇、偶数题目必须成对；

②成对值的数目一般要大于30；

③两列数据都应呈正态分布。

因此，该方法通常仅用于由选择题组成的考试。

同质性信度又称为考试内在一致性信度。

这种信度是以考试题目间的一致性程度作为指标。

具体方法是将考试分成若干部分，求各部分的一致性程度。

采用克伦巴赫（Cronbach）α系数进行考试信度值的估计，公式：

（公式10）

为α系数，n为部分总数，

指各部分考试分数的方差，

为考试总方差。

不难看出分半法是将考试分成两部分（即n=2），并且可以证明公式12与公式11等价。

该方法估计考试信度不受题目类型限制，使用最为广泛。

考试信度参照值标准学业成绩考试要求考试信度估计值在0.90以上，常达到0.95；

一般考试应达到0.70～0.80。

有人认为信度＜0.70不能用于鉴别考生个人。

考试效度（validity）考试效度是考试误差（准确度）大小估计的一个统计学指标。

效度的计算考试效度最常用的方法是相关效度分析（relativevalidity）。

相关效度分析又称效标效度，是指考试分数与效标的相关程度。

所谓效标就是检验考试有效性的一种参照标准，通常用一次公认比较可靠或权威的考试结果表示。

效标的确定将直接影响考试效度测量结果的合理性和有效性，通常在选择效标时要求取同一批学生在考试构成、学科门类上都相近的考试数据，效标应是某一次十分成功的考试或几次成功考试的平均成绩。

由于效标效度采用考试分数和效标分数间的相关系数来表示，可以对被检测的考试进行定量化的分析比较，其意义直观，易于被理解和接受。

（公式11）

、

为本次考试的观测分、平均分，

为效标分、效标平均分。

考试效度参照值在效标选择适当，考试编制合理的情况下，通常考试效度量值应在0.4—0.7之间，考试效度值过低（低于0.3）视为无效考试。

当所选择的效标与该考试存在较大的差异时，考试效度值将严重偏低。

例如我们用数学和生物两门课程的平均成绩做效标，采用本方法对某年级多门课程进行考试效度测试，计算物理、化学、政治三门课程考试效度值，数据见表02。

表02使用同一效标对多门课程科目的效度计算结果

课程科目

物理

化学

政治

考试效度值

0.5858

0.5219

0.1748

结果证明：

数学和生物均属于理科，不能用该两门课程数据做效标对政治考试做效度检验。

成绩分布统计通常以10分为一个分数段，统计每个分数段包含的学生数，组成成绩的频数分布（frequencydistribution）统计表。

将该统计表各分数段的中值和该组学生数对应点依次制成条形图，形成中间高两边低的成绩频数分布图（图01）。

图01

频数分布统计表和频数分布图各具特色，前者数据准确而后者形象直观。

当考试学生较多时，可以进一步细化分数段，如以5分为一个分数段。

成绩分布的统计是考试数据统计的一项重要工作，它可以初步了解分数分布的特征，粗略判断考试运作是否理想；

对学生成绩进行初步分挡，以配合进行学生成绩的合理解释。

理想考试的成绩应该呈对称分布，高分或低分考生数量较少，中间部分数量较多，且其分档情况接近理想的分数解释。

考试成绩分布的正态性检验研究证实自然人群中个体智力分布特征为处于中等智力附近的个体数量较多，并在分布图上呈现一高峰，由中间向两端（智力低下和智力超强）数量逐渐减少，形成类似钟形的分布曲线，该曲线符合统计学上的正态分布（normaldistribution）。

学生学习成绩的分布在外界条件相同情况下，因受智力影响较大，也呈正态分布。

当考试成绩分布呈正态分布时，测量效果符合自然分布规律，因此认为考试比较成功，试题质量较好。

测试学生总体学习成绩分布可以对试题质量进行粗略的评价。

正态分布说明测试结果与学生的实际情况一致，各种难度的项目比例合理。

正偏态分布说明试题难度偏高，难度较大的项目比例偏大。

呈这种分布的试题有利于将成绩优秀的学生和中等程度的学生区别开，但不利于将中等程度的学生和成绩较差的学生区别开。

负偏态分布说明试题难度偏低，难度较低的项目比例偏大。

呈这种分布的试题有利于将成绩较差的学生和中等程度的学生区别开，但不利于将中等程度的学生和成绩优秀的学生区别开。

双峰型分布说明试题存在两极分化现象，即难度偏高的和难度偏低的项目较多，而中等难度的项目偏少，项目难度的分布缺乏梯度，不够合理。

呈这种分布的试题可以区别中等程度的学生，但不利于区别出成绩优秀的学生和成绩较差的学生。

平坡型分布说明试题中各种难度的项目比例接近，梯度较大。

呈这种分布的试题区分度较高，但分数之间的差异偏大。

陡峭型分布说明试题中同等难度的项目较多，梯度偏小。

呈这种分布的试题几乎不能将不同程度的学生去分开，分数分布过于集中。

正态性检验一般采用矩法（methodofmoment），矩法也称动差法。

它是用数学上矩的原理推导出偏度系数（coefficientofskewness）和峰度系数（coefficientofkurtosis），公式：

（公式12）

（公式13）

式中X为某一分数段组中值，f为相应分数段学生个数，n为参加考试的学生数。

为统计量，存在抽样误差，其标准误的计算如下：

（公式14）

（公式15）

在计算得到

及

后，可按下式计算检验统计量u值，用u检验推断资料的正态性。

偏度

（公式16）

峰度

（公式17）

正态性检验除采用矩法外，还有W法（样本小于50）、D法（样本范围51-1000）、X2检验法（精确性略差）等。

看国际教育巡回展了解留学风向标

展开阅读全文