作文内容的构念效度研究运用结构方程模型软件AMOS5的.docx
《作文内容的构念效度研究运用结构方程模型软件AMOS5的.docx》由会员分享,可在线阅读,更多相关《作文内容的构念效度研究运用结构方程模型软件AMOS5的.docx(14页珍藏版)》请在冰豆网上搜索。
作文内容的构念效度研究运用结构方程模型软件AMOS5的
2007年第3期总第103期外语研究
ForeignLanguagesResearch2007,№3Serial№103
“作文内容”的构念效度研究
———运用结构方程模型软件AMOS5的尝试
文秋芳
(北京外国语大学中国外语教育研究中心,北京100089
摘 要:
本研究运用结构方程模型软件AMOS5检验限时英语议论文“内容”的构念效度。
笔者根据限时议
论文作文思维过程的基本环节,确定了代表“内容”构念的四个观测变量:
文章切题性、观点明确性、说理透彻性与篇章连贯性,然后运用结构方程模型软件AMOS5检验这四个观测变量对作文总体质量的预测力。
研究结果表明,由这四个观察变量形成的“内容”构念能够解释作文质量56%的差异。
本研究终结目的是为计算机自动评分的前期人工评分提供较为精确的“作文内容”分项指标及其评定标准。
关键词:
作文内容;人工评分;结构方程模型中图分类号:
H319 文献标识码:
A 文章编号:
1005-7242(200703-0066-06
1.引言
1.1问题的提出
近年来,国外多种作文自动评分系统相继问世。
评分的理论建模,。
人工评分是研发自(后面简称为机助人工评分,。
计算机依靠人工评分的结果提取能够预测
然后依据这一模型对大批量的同一批其它作文评定分数。
由此可见,。
而效度好、信度高的人工评分很大程度上依赖于可操作的分析性评分指标和标准。
逻辑上说,评分指标越精细,评分标准越明确,人工评分的效度和信度就越高,计算机模拟人工评分的效果就越好。
当然指标越精细,人工评分需要投入的时间与精力就越多,而实施大规模测试自动评分之前的机助人工评分通常时间比较紧迫,需要在规定的有限时间之内完成。
因此指标数量的确定需要同时兼顾评分质量和评分效率两个方面。
笔者认为,现有的几种分析性二语作文评分指标体系存在明显缺点,不能够达到机助人工评分的要求。
本研究重点探究“作文内容”指标的设定、评定标准及其效度。
本研究另一个目的是尝试运用结构方程模型软件AMOS5检验“作文内容”的效度。
该软件具有三个明显优势:
(1灵活性显著增加,它允许回归方程中自变量含有测量误差,允许变量之间存在协方差;(2可对原始数据进行直接加工,提供标准化和非标准化两种估计结果,不像LISREL需要输入各相关变量的相关系数表;(3采用视窗界面,易学易用,不需要使用者书写任何命令,一切操作均只需点击鼠标(程开明2006。
1.2评述现有三种分析性二语作文评分系统
Weigle(2002认为目前比较有影响的分析性二语作文评分体系有三种:
Jacobsetal(1981,Weir(1990,Hamp2Lyons(1990。
上述三种体系涵盖的评分指标见表1。
表1:
三种分析性二语评分体系的一级指标
Jacobsetal(1981Weir(1990
Hamp2Lyons(19901Content(30%1Relevance&adequacyofcontent1Ideasandargument2Organization(20%2Compositionalorganization3Cohesion
2
Rhetoricalfeatures
3Vocabulary(20%4Adequacyofvocabularyforpurpose4Languageuse(25%5Grammar
3
Languagecontrol5
Mechanics(5%
6MechanicalaccuracyI(punctuation7
MechanicalaccuracyII(spelling
・
66・
Hamp2Lyons只有3个指标,显然过于简单,不太适合分析性二语作文评分。
Jacobsetal有5个评分指标,Weir有7个评分指标,但笔者认为,这些指标均处于同一平面,没有区分层次,不易分清各自在评分体系中的重要性。
尽管Jacobsetal对不同指标分配了不同的权重,但各指标之间的隶属关系不清楚。
另一个问题是,这两种评分体系中涉及内容的指标不够多。
Jacobsetal的体系中有两个指标与内容相关:
content,organization,Weir中看上去有3个:
Relevance&adequacyofcontent,compositionalorganization,cohesion,实际上只有2个,因为cohesion是作文结构的外显标记之一,应该是“组织”的特征,不宜再作为单列指标。
众所周知,内容是衡量作文质量最重要的方面,如果只有两个指标,就意味着只有两个分数,其结果是,作文内容的评价就可能比较笼统,分析性程度不高。
鉴于上述两个问题,笔者认为Jacobsetal与Weir的两种分析性评分体系作为机助人工评分体系还需要修订与完善。
1.3对现有分析性二语作文评分体系的修正与完善
表2列出了笔者重新构建的分析性二语作文评分体系,这里暂且称之为层级指标体系。
表2:
分析性二语作文评分层级指标体系
一级指标
语言形式(50%
作文内容(
50%二级指标
词汇内容指标1句型内容指标2语法内容指标3操作细节
内容指标4
所谓层级,就是将指标分为一级和二级两个层次,。
两个一级指标分别为语言形式与作文内容。
。
两个一级指标所含的二级指标数量各有4个等,。
以前的分析性评分系统由于没有一级与二级指标之分,,使得语言形式的评定比内容更为精细、语法、操作细节4个二级指标。
词汇指作文所用单词的词频高低、单词的搭配以及恰当性;句型指作文所用句型的复杂度和多样性;语法指作文所用语言是否符合语法规则;操作细节指拼写、大小写、标点等使用情况。
作文内容涵盖的二级指标也有4个。
表2没有列出二级指标具体名称,因为作文的文体很多,有记叙文、说明文、议论文等,不同文体对作文内容的评判标准迥然不同,因此需要确立不同指标。
例如记叙文的要求是通过用一个生动具体的事件来点明一个主题,而说明文和议论文就不需要记叙典型、生动的事件。
本研究只选择命题议论文文体的作文内容指标作为研究对象,其主要原因是,议论文是我国目前大规模英语考试中限时定题作文最为常见的文体形式。
根据研究者本人的经验,8个二级指标的数量比较适中,如果数量再多,实施机助人工评分的时间不许可。
如果少于4个,不能照顾形式与内容的主要方面。
1.4设定英语议论文内容指标的理论依据
本研究以写作议论文的思维特征为理论框架,设定四个作文内容指标(见图1。
限时写作的基本环节有审题、立意、布局和表述(卫灿金1997。
根据文秋芳、刘润清(2006:
51-52的写作研究,与审题相对应的内容指标是文章切题性,指作文内容是否符合所给的作文要求;与立意相对应的是论点明确性,指作文中的中心论点和分论点是否清楚、明确;与布局相对应的是篇章连贯性,指文章中心论点与分论点之间是否有机地联系在一起,形成一个整体;与表述相应的是说理透彻性,指各论点的论述是否有理有据。
图1:
写作思维环节与作文内容分项指标(即文秋芳、刘润清2006中的图2写作思维过程 作文内容参数 审题 文章切题性 立意 论点明确性 布局 篇章连贯性 表述 说理透彻性
以上新设立的4个二级内容指标,在现有的分析性二语作文评分体系中有一定程度的体现,不同的
・
76・
是这些体系中给出的只是“内容”与“组织”的特征,而不是单列指标,不能单独给分。
另一个问题是,这些特征的列举缺乏理论框架,随意性比较强(见表3。
Jacobsetal从4个方面衡量“内容”的质量:
对所涉及的领域了解程度,知识面,论点阐述的深度,切题程度;Weir从切题性与恰当性两个方面来衡量。
与Jacobsetal和Weir的不相同,Hamp2Lyons涵盖三个方面:
(1主题突出,阐述充分;(2观点清楚,论述有力充分;(3考虑问题的复杂程度较高,引述别人的观点妥当。
同样,所谓“组织”在现有的三种评分体系中,表述的特征也各不相同。
Jacobsetal列出的特征包括:
表达流畅度、观点清晰度、充分性、简洁性、逻辑性、关联性;Weir的特征有:
整体结构清晰性、篇章组织技能熟练性、关联词使用的有效性。
Hamp2Lyons列举的特征包括:
(1修辞技能熟练程度;(2论点的平衡性与充分性,文章整体结构的恰当性;(3关联性与简洁性。
可以想象,评分人员很难把握“内容”与“组织”质量的不同方面,给出恰当的分数,同时不同评分体系所给的分项分数也难以比较。
而新构建的平衡层级指标体系基于明确的理论框架,指标层级清楚,数量均衡,将分析性评分体系中的特征提升为二级指标,这样可以按不同指标的标准分别给分,以提高评分的效度和信度。
表3:
现有三种分析性二语作文评分体系对“内容”与“组织”质量的最高级描述
Jacobsetal.(1981
内容(Content
组织(Organization
最高等级(按4个等级给分
Knowledgeable・substantive・
thoroughdevelopmentofthesis・relevanttoassignedtopic
Fluentexpression,ideasclearlystated・supported・succinct,well2organized・logicalsequencing・Weir(1990
内容切题性与恰当性
(Relevanceandadequacyofcontent
关联性(Cohesion
最高等级(按4个等级给分
Relevantandadequateanswertaskset
andinternalclear,organizationalskillsadequatelycontrolled
Satisfactoryuseofcohesionresultingineffective
communication
Hamp2Lyons(1990(argument
修辞特点(Rhetoricalfeatures
最高等级(按6个等级给分
essaydealswiththeissuescentrallyandfully.Thepositionisclear,andstronglyandsubstantiallyargued.Thecomplexityoftheissuesistreatedseriouslyandtheviewpointsofotherpeoplearetakenintoaccountverywell.
Theessayhasrhetoricalcontrolatthehighestlevel,showingunityandsubtlemanagement.Ideasarebalancedwithsupportandthewholeessayshowsstrongcontroloforganizationappropriatetothecontent.Textualelementsarewellconnectedthroughlogicalorlinguistictransitionsandthereisnorepetitionorredundancy.
2.研究设计2.1研究问题
本研究所要回答的主要问题如下:
(14个作文内容指标的评定标准是什么?
(2文章切题性、论点明确性、说理透彻性和篇章连贯性在多大程度上能够反映潜在变量“作文内容”?
3位评分员所给的3个成绩在多大程度上能够反映潜在变量“作文总体质量”?
“作文内容”在多大程度上能够预测“作文总体质量”?
2.2数据来源与收集
本次研究涉及的数据为我国某重点大学英语专业4个年级的英语议论文限时作文。
学生在英语写作教师的监督下,在课内(50分钟根据以下要求完成300字左右的作文:
Somepeopleseeeducationsimplyasgoingtoschoolsorcolleges,orasameanstosecuregoodjobs;mostpeoplevieweducationasalifelongprocess.Inyouropinion,howimportantiseducationtoamodernadultperson?
Writeacompositionofabout300wordsonthefollowingtopic:
EducationasaLifelongProcess.
最终进入数据分析的是由120篇作文组成的随机样本,每个年级30篇。
①2.3数据分析
语料分析分为四个阶段。
・
86・
第一阶段,将随机抽取的120
篇作文混编以后,
由受过培训的3名有经验的教师用传统方法独立评分。
评分标准根据梁茂成(2005参照Jacobsetal的评分体系修改而成,满分为300分,5项评分指标分别为:
作文内容(100分、文章结构(50分、词汇(50分、句型(50分、语法(50分。
3位评分员独立判分的相关系数为.70。
第二阶段,笔者在研读120篇作文后,提出作文内容的4个指标和评分标准的假设,经过检验、修订、再检验、再修订,多次循环后,确定每个指标的5个等级标准,5分为优秀,1分为最差。
第三阶段,笔者根据确定的内容指标和评分标准,对120篇作文进行逐篇逐个指标测量。
每一轮只评定一个指标的成绩。
为了确保测量的信度,3个月之后,笔者用同样的方法对120篇作文重新逐篇逐个指标评分。
两次评分结果平均相关系数为.69(见文秋芳、刘润清2006:
表2。
由笔者前后两次评分的均分得到文章切题性、论点明确性、说理透彻性和篇章连贯性4个指标分。
第四阶段,运用AMOS5软件构建结构方程模型。
本研究的潜在变量有“作文内容”与“作文质量”,作文内容的观测变量有文章切题性、论点明确性、说理充分性与篇章连贯性,作文质量的观测变量是3个评分员所给的3个成绩。
本研究的核心是检验文章切题性、论点明确性、说理透彻性、篇章连贯性这4个指标形成“作文内容”构念的效度。
笔者的假设是:
如果这4个观测变量能够反映潜在变量“作文内容”,同时作为潜在变量“作文内容”能够解释作文总体质量,就可以推断“作文内容”具有构念效度。
图2是本研究构建的初始结构方程模型,有待进一步验证。
图2:
初始结构方程模型
矩形表示观测变量,椭圆形表示潜在变量,圆形表示测量误差。
潜在变量与观测变量之间的关系用单向箭头表示,意味着潜在变量能够被观测变量所反映。
潜在变量之间的关系用单向箭头表示,箭头起点的变量为自变量,箭头所指的变量为因变量。
图2假设自变量“作文内容”可以预测因变量“作文总体质量”;“作文内容”能够被文章切题性、论点明确性、说理透彻性和篇章连贯性4个观测变量所反映;“作文总体质量”能够被作文成绩1,作文成绩2和作文成绩3所反映;除“作文内容”外,其它各个变量均有测量误差。
3.研究结果与讨论
3.1作文内容4个指标的评定标准文章切题性、论点明确性、说理透彻性和篇章连贯性这4个内容指标作为图2中的观测变量,每个观
・
96
・
测变量分为5个等级:
文章切题性需要根据不同题目确定不同标准。
就本次作文题目而言,核心概念包括“终身教育”与“现代人”。
切题性5分表明作者能够阐述终身教育对现代人的重要性;切题性4分表示作者阐述了终身教育对每人的重要性,忽视了现代人这个概念;切题性3分意味着作者只解释了什么是终身教育,而没有通过说理来论述终身教育对现代人的重要性;切题性2分说明作者只是泛泛说明教育的重要性,未能正确理解终身教育和现代人两个概念;切题性1分表明作者所写内容只和题目稍有沾边;
论点明确性的评定等级取决于作文中中心论点与分论点的清晰度和恰当性;说理透彻性的等级标准主要测量各分论点阐述的逻辑性和充分性;
篇章连贯性的质量等级侧重考察各分论点之间关系的逻辑性和清晰度。
(具体数据可参见文秋芳、刘润清2006:
表1
表4列出了4个年级分别在4个作文内容指标上的得分情况。
4个年级文章切题性与论点明确性的得分形成一个递增趋势,即随着年级的提高,这两个指标的平均分在增加。
与前两个指标稍有不同,说理透彻性与篇章连贯性的总体发展趋势虽然呈逐年上升,但3年级的平均分没有2年级高。
就这一组描述性数据总体情况来看,本研究设立的4个内容指标具有一定的区分度,下面将用AMOS5结构方程模型进一步检验。
表4:
4个年级在4个内容指标上的得分
年级
文章切题性论点明确性说理透彻性平均数/标准差
平均数/标准差
/1年级2.72/1.092.35/1.080.862年级3.08/1.143.25/1.3.43/1.283年级3.62/1.0575/1.263.32/1.474年级
4.15/4.4.03/0.914.50/0.80平均分
3.39/1.3.31/1.20
3.02/1.25
3.43/1.34
3.2作文内容对作文总体质量的预测力
表5列出了初始模型(图2与修正模型(图3的拟合效果指标。
根据AMOS软件对结构方程模型的要求,当卡方值与自由度之比<2,p>.05;GFI,AGFI,CFI≥.90;RMSEA≤.08时,该模型才能被接受。
表7中初始模型的p=.02;AGFI,CFI<.90;RMSEA=.09说明数据和模型拟合效果不是非常理想,模型还需要进一步修正。
根据AMOS对模型修正的建议,笔者在初始模型上增加了两条双箭头路径,一条将错误3和错误8连在一起,另一条将错误4与错误7连在一起(见图3,表示这两对变量之间存在协方差。
修正后的模型拟合效果指标达到了统计要求:
卡方值(Chi2square为19.13,自由度(DF为14,p值=.160,拟合优度指数(GFI=.95;修正拟合指数(AGFI=.91;比较拟合指数(CFI=.95;平方根残差值(RMSEA=.06。
表5:
初始模型与修正模型的拟合效果指标
Chi2Square
DFPGFIA
GFICFIRMSEA初始模型30.2416.02.93.87.82.09修正模型
19.13
14
.16
.95
.91
.94
.06
根据图3,文章切题性、论点明确性、说理透彻性与篇章连贯性的路径系数分别为.79,.85,.84,.87。
它们之间的差异说明这4个观测变量对潜在变量“作文内容”的贡献不等,但均为有效参数,在不同程度上反映了作文内容的优劣。
其中,文章切题性与作文内容之间的路径系数(.79最小,因此贡献也最小;篇章连贯性与作文内容之间的路径系数(.87最大,因此贡献也最大。
根据图3,3个评分人员所给出的作文成绩1,作文成绩2,作文成绩3的路径系数分别为.82,.86,.79,这意味着3个评分员所给的成绩对潜在变量“作文总体质量”的贡献不完全相同。
其中最小的路径系数是.79,这表明作文成绩3对“作文总体质量”的作用最小;最大的路径系数是.86,这表明作文成绩2的作用最大。
尽管各观测变量对潜在变量的贡献不尽相同,但它们都能较好地反映潜在变量。
・
07・
图3:
作文内容预测作文总体质量的结构模型也就是说,以上这两个潜在变量能够参与进一步数据分析。
作文内容与作文总体质量之间的路径系数为.75,这说明作文内容能够解释作文总体质量56%的差异。
这一结果应该相当令人满意。
在作文内容评估只分为5个等级,且作文内容仅为作文总体质量的一个方面的情况下,就能够得到如此的解释力,很能说明问题。
由此可以推断,本研究所提出的作文内容的构念效度比较好,可以依据这4个观测变量进行机助人工评分,用这种评分方法会得到较常规人工评分更为精准的评分效果。
需要指出的是,该作文内容测量指标仅用于预测一篇作文的总体质量,未来研究有必要用更多的英语议论文命题作文对4个观测变量的评定标准进行检验,进而不断完善。
同时未来研究还需要根据其它文体的特点,构建相应的内容指标与评定标准。
4.结语以上研究仅仅涉及了内容指标。
为了建立一个完整的分析性二语作文评分体系,语言形式的二级指标还需要进一步研究,特别是每个二级指标的分级标准。
此外,本研究的实践还表明,AMOS5易于学习、易于操作,可以广泛应用于外语教学研究。
注释:
①本文与文秋芳、刘润清(2006使用的是同一批数据。
参考文献:
[1]Ham2Lyons,L.1990.Secondlanguagewriting:
assessmentissues[C]∥B.Kroll.SecondLanguageWriting:
ResearchInsightsforClassroom.NewYork:
CambridgeUniversityPress.[2]Jacobs,H.,S.Zinkgraf,D.Wormuth,V.Hartfiel&J.Hughey.1981.TestingESLComposition:
APracticalApproach[M].Rowley,MA:
NewburyHouse.[3]Weigle,S.C.2002.AssessingWriting[M].Cambridge:
CUP.[4]Weir,C.J.1990.CommunicativeLanguageTesting[M].NJ:
PrenticeHallRegents.[5]程开明.2006.结构方程模型用于顾客满意度测评之实际应用[J].市场研究(5.[6]梁茂成.2005.中国学生英语作文自动评分模型的构建[D].南京大学博士论文.[7]卫灿金.1997.语文思维培育学[M].北京:
语文出版社.[8]文秋芳,刘润清.2006.从英语议论文分析大学生抽象思维特点[J].外国语(2.收稿日期:
2007-03-08作者简介:
文秋芳(1950-,北京外国语大学