认知诊断测验编制的原则.docx

上传人:b****2 文档编号:24508258 上传时间:2023-05-28 格式:DOCX 页数:15 大小:32.11KB
下载 相关 举报
认知诊断测验编制的原则.docx_第1页
第1页 / 共15页
认知诊断测验编制的原则.docx_第2页
第2页 / 共15页
认知诊断测验编制的原则.docx_第3页
第3页 / 共15页
认知诊断测验编制的原则.docx_第4页
第4页 / 共15页
认知诊断测验编制的原则.docx_第5页
第5页 / 共15页
点击查看更多>>
下载资源
资源描述

认知诊断测验编制的原则.docx

《认知诊断测验编制的原则.docx》由会员分享,可在线阅读,更多相关《认知诊断测验编制的原则.docx(15页珍藏版)》请在冰豆网上搜索。

认知诊断测验编制的原则.docx

认知诊断测验编制的原则

CompanyDocumentnumber:

WUUT-WUUY-WBBGB-BWYTT-1982GT

 

认知诊断测验编制的原则

认知诊断测验编制的原则

  摘要:

Tatsuoka给出的实例表明,不同知识状态可能对应同一理想反应模式,即对知识状态产生误判。

如果不是对测验进行事后分析,找出属性及层级,而是采用Leighton等人所倡导的方法,在认知诊断测验编制之前确定所测属性及其层次,导出可达阵,这时可以证明只要将可达阵作为认知诊断测验蓝图的一部分,则可避免这一问题。

这一原则不仅对认知诊断测验蓝图的设计有指导作用,而且对制定有认知诊断功能的计算机化自适应测验的选题策略有着重要的参考作用。

  

  关键词:

测验蓝图;认知诊断;可达矩阵;理想反应模式;计算机化自适应测验

  

  1.引言

  通常把对个体知识结构、加工技能或认知过程(均简称为属性,attribute)的诊断评估称为认知诊断评估或认知诊断(cognitivediagnosisassessment/cognitivediagnosis,CDA,LeightonandGierl,2007.)[1]。

  

  一般的教育考试,特别是大规模的考试,只提供考试分数或能力分数。

然而由单一的分数,既不能得到被试具体掌握或未掌握什么知识的结论,也不能得到被试做错试题的原因,以进行补救;对于相同分数的个体,更无法得到他们之间可能存在的知识状态和认知结构的差异。

传统的考试提供的信息已不太适合个体发展的需要,认知诊断评估的主要任务是挖掘更多的认知加工信息。

Leighton和Gierl(2007)[1]认为认知诊断是用于测量/评价个体特定的知识结构(knowledgestructure)和加工技能(processingskills)。

CDA通过测验获得被试在测验上(可观察)的反应而推知该被试不可观察的知识状态(knowledgestate)。

  

  Leighton和Gierl(2007)[1]在他们所编写的书第一篇文章称CDA仍处于萌芽状态(CDAisstillinitsinfancy),表明对CDA的研究,包括认知诊断测验的构造都是新的课题。

Gierl(2007)[1]在注释中又指出,认知诊断测验设计是一个重要的研究领域,而已有的相关研究成果却很少,连Downing和Haladyma编辑的由Erlbaum在2006年出版的测验编制手册(Handbookoftestdevelopment)中也没有相应的章节涉及认知诊断测验编制,甚至找不到认知诊断评价的主题词条(subjectentry)。

Gierl(2007)[2]还认为只有Gorin(2007)[1]描述了认知诊断测验编制的原理。

认知诊断测验的编制是一件具有挑战性的任务,限于篇幅和本文主旨,这里不讨论如何与命题专家沟通,打磨出好的试题的问题,而集中讨论认知诊断测验蓝图的编制问题。

  

  在讨论认知诊断测验蓝图的编制问题之前,我们先看两个例子,一个是简化的用以解释原理性的例子;另一个是规则空间模型(rulespacemodel,RSM)的开创者Tatsuoka(1995)给出的例子[2][3][4][5],用以说明实际工作中考虑不周就很有可能编制出有问题的诊断测验。

  

  下文中理想反应是指既不猜测也不失误的作答反应,只有被试掌握了项目所测的所有属性,才能正确作答。

属性层级方法(attributehierarchymethod,AHM)[6][7][8]中称理想反应为期望反应模式;确定性输入,噪声“与”门模型(deterministicinputs,noisy”and”gatemodel,DINA,如可参见Henson&Douglas,2005[9])中的理想反应模式具体计算公式见附录1(其实,差不多所有理想反应模式都可以这样计算,当然也可以用丁树良等[10]介绍的方法计算)。

由附录1中具体计算公式可见理想反应模式十分重要,其实理想反应模式对诸如RSM,AHM等许多认知诊断模型都十分重要。

对于诊断测验,在既不猜测也不失误的理想作答反应情况下,具有不同知识状态的被试对应不同的理想反应模式,则称为理想的认知诊断测验;否则称为理想反应误判的认知诊断测验。

若具有不同知识状态被试对应相同的理想反应模式,则称这些不同知识状态为等价类。

实际上,这个等价类是由测验蓝图(测验Q阵)决定的,称为知识状态中由测验Q阵决定的等价类。

我们希望有测验Q阵,使得每个等价类中仅仅有一个知识状态。

  

  例1.三个属性A1,A2,A3,它们彼此之间不存在先决关系(prerequisiterelation)。

于是属性之间的可达阵R为三阶单位阵I。

今给出三个项目作为诊断测验。

注意被试的知识状态共有8种,即α1=(000),α2=(001),α3=(010),α4=(011),α5=(100),α6=(101),α7=(110),α8=(111)。

  

  如果上述8种被试分别参加测验蓝图为Qi(i=1,2,3,4)的认知诊断测验,则对于Q1,α1,α2,α3,α5的理想反应模式均为(0,0,0),即理想反应模式为(0,0,0)的模式其潜在知识状态可能为α1,α2,α3,α5,此时如果根据其所有理想反应模式来判断其知识状态,误判率为3/8;上例中α1,α2,α3,α5是Q1决定的等价类;对于Q2,α1,α2,α3,α4为一个等价类,理想反应模式均为(0,0,0);而α5,α6为另一个等价类,理想反应模式均为(1,0,0),即误判率为4/8;对于Q3,α1,α2的理想反应模式均为(0,0,0),α3,α4理想反应模式均为(0,1,0),而α5,α6为第三个等价类,理想反应模式均为(1,0,0),即误判率为3/8;但对于Q4却不带来任何误判。

  

  例(1995,[4]给出了小学分数加减的认知诊断测验,测验共含9个项目,依Tatsuoka的事后(posthoc)分析,即通过对测验后的得分矩阵进行分析,得出5个属性,属性完全相同的项目仅保留一个。

如第五题:

7121+和第六题:

2131+都是检测通分(A3)和分数相加(A4),即T)(00110,只保留第五题;而第四题442221+与第八题423631+均检测了所有五个属性,也应归为一类,即T)(11111,只保留第四题(本文中xT表示向量x的转置),于是仅剩下7类项目,组成一个5×7的Q阵。

这里的Q阵与Tatsuoka给出的有不同,因为她给出的Q阵有笔误,比如第七题只涉及分子相加(A4),即T)(00010,而不像Tatsuoka所标定的为“答案化简”,我们对这些笔误进行修正。

最后修正的Q阵,它不含相同的列。

然而这个Q阵可能导致对知识状态的误判,比如根据所测属性及其层次关系,有两个被试的知识状态分别为α1=(0,0,1,1,1),α2=(0,1,1,1,1),它们导出的理想反应模式却相同,都等于(0,1,1,0,1,1,0)[8]。

  

  这个例子说明一个很严重的问题:

Tatsuoka(1995,)[4]希望规则空间模型(Rulespacemodel,RSM)中的Q-矩阵理论,能够起到桥梁作用——将可观察的反应向量对应到不可观察的知识状态。

现在至少有两个不同的知识状态(例如α1,α2),居然对应到同一个理想反应模式,即这个等价类中至少含有两个知识状态。

此时如果我们观察到这个理想反应模式,以此来诊断其隐藏的知识状态,我们难以判断隐藏的知识状态到底是α1,还是α2。

这时完全可能产生误判。

我们称不同知识状态对应同一理想反应模式的现象为对知识状态的误判。

  

  Tatsuoka(1995,)[4]以实例说明属性掌握模式(即被试知识状态)和理想反应模式并不是一一对应的,而是多个属性掌握模式对应同一个理想项目反应模式(idealitem-responsepattern)。

这种现象对于被试的归类是很不利的,同时也说明Tatsuoka提供的方法存在一定的问题。

  

  由于认知诊断测验蓝图直接影响CDA的分类效果,下描述了CDA最为核心的过程,其中,sQ是由可达阵R导出的Q阵,称为被试Q阵,这时sQ的每一列都代表了“一类”知识状态(knowledgestate),表示一个测验中项目与属性关联关系的的Q矩阵为测验Q矩阵,记为tQ,显然tQ只是sQ的某一部分,即tQ是sQ的子矩阵(sub-matrix)且不含相同的列[10];α是知识状态,η是理想(期望/潜在)反应模式,f--1是f的反函数,此时要求f本身是一一映射[9]。

  

  后半部分由试题性质、被试动机或一些随机因素等决定,因此要提高CDA分类的准确性,关键取决于前半部分。

如果一映射(|)stfα∈QQ使得集合sQ中的不同列(称为sQ中的元素)在理想反应模式集合η中有相同的象,则分类较为模糊——只能分到相应的等价类中。

如果能够编制一测验蓝图tQ使得对应关系(|)stfα∈QQ对于集合sQ中的任何一个元素,在集合η中都存在唯一的一个元素与之对应,则可以通过求对应关系的反函数,达到对反应模式的比较准确的分类。

我们希望对任何一种属性层级,都能如例1一样,构造出相应的测验蓝图,使得属性掌握模式(知识状态)与理想反应模式一一对应。

  

  本文探讨将可达阵作为测验蓝图的一部分对提高认知诊断准确率的关系;要对认知诊断测验编制进行讨论。

第2节讨论认知诊断的逻辑顺序以及测验蓝图的编制,第3节讨论上述结论中的应用,即对测验编制的指导作用和对有认知诊断功能的计算机化自适应测验选题策略的制订的指导作用;第4节进行MonteCarlo模拟研究,以讨论“将可达矩阵作为(或不作为)测验蓝图一部分”时的误判率大小;并验证第2节的结论。

第5节是认知诊断测验编制的相关问题的进一步讨论。

另外,我们给出一些附录,主要是想正文枝蔓不要太多而妨碍文章的主要结论,增加文章的可读性。

  

  2.认知诊断测验蓝图的编制

  Tatsuoka(1983,1991,1995)[2][3][4]的规则空间模型中关联矩阵Q是可以通过分析测试项目得到的。

事实上,目前许多CDA是根据认知诊断模型(cognitivediagnosticmodel,CDM)对已有的测验进行分析,这些已有的测验并不是为认知诊断“量身定制”的。

Leighton,Gierl,和Hunka(2000)[11]指出这样导出Q阵的方法逻辑性不强。

Gierl等人(2000)[11]及Leighton等人(2004)[6]建议在测验之前就由专家给出欲测属性及这些属性间的层级关系(hierarchyrelation)。

对于如何构造一个有利于诊断的项目,Gorin(2007)[1]给出了一些例子,并给出一些原则;Gorin(2007)[1]强调诊断测验的构造的重要性不亚于构造单个项目的重要性,文章甚至造出一个不利于认知诊断的测验蓝图(其中每个项目至少包含两个属性),并讨论了诊断测验编制的问题,认为诊断测验中应尽可能多地包括对应Qr中的列的项目。

Henson和Douglas(2005)[9]对如何选取项目组成认知诊断测验作过较深入讨论,给出了计算指标,这个指标的计算是耗时的,并且该指标的应用有相当的限制,即需要认知诊断模型有具体的显式的(explicitexpression)认知诊断的项目反应模型,如DINA,Fusion模型等,对于没有显式表达的认知诊断项目反应模型,如RSM,AHM,这一指标还不能应用。

由于本文主要讨论在给定可达阵R的基础上诊断测验蓝图的编制,而不要求认知诊断模型具有显式表达式,为了节省篇幅,故对Henson和Douglas(2005)[9]在认知诊断测验中选取项目的方法不作具体陈述。

Gorin(2007)[1],Henson和Douglas(2005)[9]的文章中,都未意识到可达阵在认知诊断测验编制中的重要性。

  

  Tatsuoka(1995)[4]和Leighton等人(2004)[6]认为Qr阵是认知诊断测验的测验蓝图,Gierl等人(2007,p255)[1]也认为Qr阵在AHM(Leightonatel,2004)[6]中十分重要,是测验的一个认知蓝图(cognitiveblueprint)。

我们认为,依照AHM的逻辑顺序,在测验之前便分析寻找认知诊断测验欲测之属性以及它们的层级关系,然后得到属性之间的邻接阵A,由A与同阶单位阵I的和A+I,计算出可达阵R,再从R出发,寻找出满足属性层级关系的所有属性组合,即得到Tatsuoka(1991,1995)[3][4]所说的简化Q阵,即Qr阵(当被试较多时,他们的知识状态(knowledgestate)的集合的外延较丰富,有可能Qr中每一列都含在这个集合之中。

我们称这个Qr阵为学生Q阵,记为Qs。

当Qs的列太多时,不可能将Qs作为测验蓝图,这时要从Qs中抽取一部分,可以作为测验蓝图,称Qs的这个子矩阵(sub-matrix)为测验Q阵,记之为Qt)。

这里推荐AHM的逻辑顺序,是因为AHM中Q矩阵产生在测验之前,故这时Qt矩阵可以指导测验的编制,而Tatsuoka的Q矩阵是测验以后从得分阵中分析出来的,此时Q阵对测验设计不可能有指导作用,也不可能保证反映了属性之间真实的层级关系[8]。

接下来要讨论的问题就是如何构建Qt阵,使得任取两个知识状态不同的被试,他们参加Qt为蓝图的测验,在不计猜测也不计失误的理想情况下,他们的理想项目反应模式不相同。

这可以抽象为从Qs中任取两个列qi,qj(qi≠qj),记为被试qi,qj,用x(qi∣Qt)表示被试qi对测验Qt的理想项目反应模式,则上述问题可以用一个数学符号来表示为:

  

  任取Qs中两列qi,qj(qi≠qj)有x(qi∣Qt)≠x(qj∣Qt)

(1)注意这里不讨论知识状态为零向量这一种很简单的情形,但模拟研究中还是包含了这种情况。

  为了寻找这样一个Qt阵,我们先给出几个结论。

  结论1:

可达阵可以表示为对角元全为1的上三角阵。

  结论2:

Qs阵可以由可达阵通过扩张算法得到。

  结论3:

对于可达阵中任两个不同的列α和β(它们可以代表两个不同的被试),若这两个被试参加可达阵为蓝图的测验,理想反应模式必定不同。

  结论4:

如果属性层级是线性型,则不同知识状态的被试参加以R为蓝图的测验,理想反应模式必定不同。

  结论5:

对于无结构型的属性集,设其对应的可达阵Ri,i=1,2;分别为R1=I或R2,R2中第j列的第1个元及第j个元为1,其他元素均为0,则不同知识状态的被试参加Ri(i=1,2)为蓝图的理想反应模式一定不同。

注意R1,R2分别描述Tatsuoka(1995)[4]和Leighton等人(2004)[6]的无结构型。

  

  依照结论2,Qs(Qt)中每列都可以由R的列“扩张”出来。

通俗一点讲,R是构造Qs(Qt)的基础,因此我们对其特别关注。

另外,它的列数便是所测属性的个数,如果含有相同属性的项目看成同一类,则用K个类的项目去考察K个属性应该是符合经济,高效原则的。

这个事实表明可达矩阵在认知诊断测验中具有举足轻重的作用,也启发我们对断言

(1)采用如下的证明。

  

  证明:

由Leighton等人(2004)[6]的划分,属性层级结构分成线性、收敛、发散、无结构型等四类,其他形式的结构可以由它们组合,而由结论4和5,我们只要对收敛及发散型结构证明即可。

注意理想项目反应模式x(qi∣Qt)是一个列向量,如果我们仅只考虑0-1评分方式,且测验Qt含有m个项目,则x(qi∣Qt)是一个m行的只取0或1的向量。

如果我们能够将测验蓝图Qt分成两部分,不失一般性可以假设Qt的前一部分是可达阵R,余下部分记为Qo,即将Qt写成一个分块矩阵模式Qt=(RQo)。

用x(qi∣R)表示被试qi参加以可达阵R为测验蓝图的分测验时所得到的理想反应模式。

此时如果能证明x(qi∣R)≠x(qj∣R),则依向量相等的定义,我们便证明了

(1)式。

但要特别注意,Qt是K×m矩阵,R是K×K阵,K是测验所要考查的属性个数。

R要成为Qt的一部分,其必要条件是m≥K。

今设被试α和β其知识状态与Qs中第i,j列相同,为qi,qj,且qi≠qj。

对于t=K,K-1,…,2,1,逐步考察qti=qtj是否成立。

如果qKi≠qKj,且不妨设qKi=0而qKj=1。

由R为上三角阵,得知有且只有rKK=1,再根据Qr矩阵扩张算法[10][13][14],得知qi,qj都可由R中列“扩张”合成出来,从而可知R的第K列必参与复合qj,而未参与复合qi,故被试qj对项目K的理想反应为1而qi对项目K的理想反应为0;如果qKi=qKj不论它们都为0还是为1,往下考察qK-1,i=qK-1,j是否成立。

如不成立,仍不妨设qK-1,j=1而qK-1,i=0,则仿上推理,知qK-1,j=1表明R中第K-1列参与复合qj而未参与复合qi,故被试对项目K-1的理想反应为1;而qi的理想反应为0;如果qK-1,i=qK-1,j成立,则往上考察qK-2,i=qK-2,j是否成立,仿照上面可以证明qi与qj的理想反应模式必不相等。

  

  注意到qi,qj均是K维向量。

K是一个有限数,故以上步骤至多进行K-1次必可以推知qi与qj参加R为测验蓝图的测验后,其理想反应模式必不相等,即如果qi,qj取自Qs,且qi≠qj,则x(qi∣R)≠x(qj∣R)。

以上对断言

(1)进行了证明(附录4对其作了更为简洁的数学化证明)。

下面举例对断言

(1)的证明思想作进一步说明。

  

  例3属性及其层级,则可达阵R和学生阵Qs。

  记R中的列为r1,r2,。

rK,,Qs中的列为q1,q2,。

q10,而元素全为零的列记为q0。

如89q≠q,89max{|}4ttttq≠q=。

且4948q=1>q=0,知4r参与9q的复合,事实上945q=r∨r,而835q=r∨r,而在理想反应情况下,8q不能正确回答对应的项目4r,而9q则可以,即8899x(q|R)=q≠x(q|R)=q;这里r3∨r5表示r3与r5的列中对应元素的“加法”,即除0+0=0外其他情况相加均为1,比如(1,0,0,1)∨(0,0,1,1)=(1,0,1,1)。

  

  同样可知对于9q和10q,max{|t9t10}3ttq≠q=,且393,10q=0

  

  则x(q0∣R)=0,x(qi∣R)=qi,i=1,2,…,10。

  这个例子给出了一个更强的结论:

由于

(1)成立,且x(qi∣R)又是Qs中的列,qi≠0。

  故x(qi∣R)与Qs中的列建立起了一一对应关系。

如果qi取自可达阵R,则qi必可以对项目qi做出正确反应,于是x(qi∣R)=qi。

而对于Qs中由R扩张出来的列qi也可以证到x(qi∣R)=qi。

由于证明要用到更多的数学知识,故略去。

  

  3.应用

  以上证明的结论表示,一个认知诊断测验中如果测验蓝图Qt中包括可达阵R,则对有不同知识状态的被试qi,qj,他们的理想反应模式x(qi∣Qt)与x(qj∣Qt)必不相等。

这也表明只要将可达阵作为测验蓝图的一部分,则在理想反应条件下一定可以避免知识状态的误判。

  

  这时可以证明另一个结论,即被试知识状态与其理想反应模式是一一对应的(证明可以参见左孝凌等[12]),而不是象Tatsuoka(1995,)[6]所说的多个知识状态对应同一个期望反应模式。

该结果对于认知诊断的重要性是不言而喻的。

对于有认知诊断功能的计算机化自适应测验[15][16],其选题策略的制定也可以参照这一结论,即每个被试接受的部分项目如果对应于可达阵R的列,则在理想反应条件下对知识状态不至于出现“误判”的现象。

  

  这表明,如果测验目的是做认知诊断,则试卷中的项目数不能少于属性的个数。

这里所指的试卷,可以是纸质的,也可以是用计算机呈现的。

当然如果采用计算机化自适应测验方式做认知诊断,则根据选题策略的不同,所测项目数也可能少于属性个数,比如选题时选用包含所有属性的项目,且被试连连做对,说明该被试掌握了该测验欲测的每个属性,这时对其所测项目数可能就较少;同样对于仅掌握较少属性的被试,所测项目也可能较少。

  

  当然,目前只证明到测验蓝图中包含可达阵是“使诊断测验在理想反应条件下不产生对知识状态的误判”的充分条件。

如果从Qs中抽出其他的列可以取代R而达到这一目的,则对于有认知诊断功能的计算机化自适应测验是十分重要的,因为为了不让部分项目曝光度太高,通常的自适应测验不希望让所有被试都测验某些项目,纵使诊断性测验是低风险(low-stake)测验,对某些项目过度使用也会有负面效应,所以对于有认知诊断功能的计算机化自适应测验,纵使要让所有被试都测验可达矩阵R的列对应的项目,题库中与R的每一列对应的那一类项目应该相当丰富。

  

  4.模拟研究

  为了验证我们的想法,我们设计了MonteCarlo模拟试验,采用随机化试验,针对不同测验蓝图所编制的测验的诊断准确率(模式判准率及边际判准率)进行考察。

下面从诊断测验蓝图、测验生成方式、研究设计、得分阵模拟、评价指标以及试验结论等方面分开陈述。

  

  诊断测验蓝图

  测验蓝图即上文提到的Qr或Qt,指定测验项目须测量的属性或属性集,用于指导测验项目Qt的开发。

本文根据Leighton等人(2004)[6]给出的四个不同的属性层级结构,在保持其结构不变前提下,将属性个数K增加到8个,分别为:

线型(linear,L)、收敛型(convergent,C)、发散型(divergent,D)和无结构型(unstructured,U),在以下表格中,分别用L,C,D,U表示这四种不同的属性层级。

为反映可达阵对诊断准确率的影响,对每种层级结构均编制四个诊断测验蓝图,它们分别含五个、三个、一个和零个可达阵。

  

  测验生成方式

  通过属性层级结构得到R,再通过扩张算法得到Qr,知线型Qr项目数为8,收敛型Qr项目数为12,发散型Qr项目数为45,而对无结构型Qr项目数为128。

从而也得到需模拟的知识状态Qs,即Qr中加上一全零列(它表示对所测属性均未掌握)。

本文对每种结构的理想属性掌握模式(知识状态)分别产生30人,如线型模拟人数为(8+1)*30=270人,同理可以计算其他的属性层级结构的模拟人数(请见表2)。

  

  为对各个测验蓝图生成的测验结果进行比较,固定测验长度5K。

对于未包含足够测验长度的测验蓝图,如测验蓝图中含有i个可达阵,i=3,1,0,剩余的项目从Qr-R(即将Q

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 自然科学 > 数学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1