成就测验不完整作答反应推估之研究.docx

资源描述

成就测验不完整作答反应推估之研究.docx

《成就测验不完整作答反应推估之研究.docx》由会员分享，可在线阅读，更多相关《成就测验不完整作答反应推估之研究.docx（34页珍藏版）》请在冰豆网上搜索。

成就测验不完整作答反应推估之研究.docx

成就测验不完整作答反应推估之研究

成就測驗不完整作答反應推估之研究

林曉芳

嶺東技術學院應用外語科助理教授

E-mail：

goodly@.tw

摘要

本研究主要目的在估計學生成就測驗中的未作答反應，研究者嘗試運用統計插補方法，企圖根據受試者的部分作答反應，推論出受試者的能力參數估計，並討論一般統計插補法運用在成就測驗上的可行性與價值意義。

基於以上的動機，本研究之目的為：

（一）統計插補技術應用於成就測驗之可行性；

（二）運用熱卡法於不同缺失比率之成就測驗上進行插補，比較其結果之差異。

本研究所使用的工具為研究者自編國一第一冊數學科學習成就測驗，在經過將預試之後，進行試題分析，挑選出具有良好鑑別度、信度，以及適當難度（中等難度）之優良試題，組成一份含有40道試題之國中第一冊數學科成就測驗。

本研究程序可分為以下步驟：

（一）模擬研究：

研究者根據實證資料型態進行模擬作答反應的產生

（二）試題準備階段：

分別由數位目前任教於國中的數學老師提供試題，且由研究者參酌坊間參考書挑選部分試題後，綜合二者彙編而成；（三）試題分析：

收集預試結果，共399份測驗，進行試題分析；（四）進行正式測驗：

徵詢自願接受本研究測驗之各校國二學生作答（預試與正式測驗之受試者不重複），回收後得到樣本共1102人；（五）處理與定義未作答反應之缺失值：

本研究主要欲進行插補的未作答反應為受試者跳答（omitted）的試題，在收集所有受試者之作答反應組型後，全部作答完整的共有760份測驗，而缺失作答題數佔總題數之5%以下、5%～10%、10～15%與15％以上者，分別各為168人、53人、37與84人；（五）對未作答之缺失值進行統計插補估計：

利用一般調查研究所常用的熱卡法來進行資料的插補，另亦嘗試以集群分析，尋找受試者的答題反應模式，藉由依據同類反應組型的受試者作答反應，來推測未作答受試者的缺失資料，並再利用區別分析進行分類的驗證，以及資料插補的正確率。

本研究之結果為：

（一）熱卡法可應用於成就測驗；

（二）缺失比率愈高的資料，影響試題與能力參數估計的正確性；（三）藉由集群分析的作答組型分類結果，再配合應用區別分析的驗證分類效果，可驗證熱卡法的插補正確效果，亦證明熱卡插補法的確對於處理成就測驗缺失作答反應，提供了一個不錯的補救方法。

關鍵字：

成就測驗、缺失作答反應、熱卡法

Keywords：

achievementtest,non-responseitem,hotdeckmethod

成就測驗不完整作答反應推估之研究

壹、緒論

在一般調查研究的資料蒐集過程中，皆難免會因某些因素而使得資料無法蒐集齊全，而這些被遺漏的資料，如：

未回卷、未回答或填答值為不知道、拒答、無意見或無此筆資料者，皆可被視為是不完整的作答反應。

因資料類型不同、學者對其定義的差異也有不同的名稱，舉凡：

資料遺漏或缺失值（missingvalue；missingdata）、不完整值（incompletevalue）、無反應作答（itemnon-response）等等。

目前對於調查研究的缺失值處理方法，主要以插補方式進行事後的統計處理補救，根據目前的研究發現，各插補方法依資料類型多有不錯的補救效果。

不完整作答反應的種類，可依下列幾種標準來作分類：

（一）以發生對象而言：

可以區分為兩大類型：

（1）單位無反應（unitnon-response）；

（2）項目無反應（itemnon-response）。

前者之意義為回收問卷中，問卷之全部資訊完全遺失，後者則表示回收之問卷中，有部分資訊遺失。

通常對於單位無反應的問卷，分析者多採用加權的方式來彌補因資料缺失而造成的可能誤差；而項目無反應的問卷，則是多採插補方式將缺失資料補齊，以得到完整資料，再進一步去作資料的分析。

（二）以發生的機率而言：

Rubin（1976）年在Biometrica期刊上發表文章中，首先提出隨機遺失（Missingatrandom，MAR）與完全隨機遺失（Missingcompletelyatrandom，MCAR）二個名詞。

後來的研究學者對於各種不完整反應值處置措施的差異，主要源自於產生此值的機轉（mechanism）抱持著不同的假設態度，一般而言，可分成三大類（陳信木、林佳瑩，民86）：

（1）完全隨機遺失：

當此缺失值發生的機率與被觀察個案所蒐集到的資料，及未蒐集到的資料之間是獨立的，且是在研究者可控制之下，則此機轉是可忽略的（ignorable）。

簡言之，觀測值的取得是隨機抽取（OAR，observedrandom），和觀測值是無關的。

可以下式表示之：

，其中

：

一個長度為ｋ的向量，其中Yobs　表示可觀測到的值，Ymis　表示遺失值﹔

：

表示第I個觀測值在第j個變項的資料遺失之結構。

為一隨機變數，

＝1表示可觀測到的資料﹔

=0表示無法觀測到的資料﹔

即是此條件分配的參數。

（2）隨機遺失：

缺失值發生的機率與被觀察個案所蒐集到的資料是有關的，與未蒐集到資料之間關係是獨立的，意指個案特定變項數值遺漏的可能性，取決於其他觀察個案之變項數值。

如：

教學評量問卷因窗戶未關好，導致有幾份問卷被風吹走而遺失。

可以下式表示之：

。

（3）不可忽略的（non-ignorable）：

所謂「可忽略反應（ignorableresponse）」是指缺失值是隨機出現，而不可忽略即是指缺失值發生的機率與缺失資料之間有相關存在，有違反缺失值隨機出現的條件存在，亦即有資料偏差存在。

一般而言，在研究過程中，多數時候發生的缺失值都不是研究者所能掌控的，但又卻產生偏差影響，因此，這是不可被忽略的。

例如：

高所得受試者傾向於拒絕回答收入問題，此即為變項數值與產生缺失值間有相關性存在。

（三）以發生次數而言：

根據每個個案被衡量或觀察的次數來區分，缺失值又可被分為兩大類（葉瑞鈴，民89）：

（1）單一觀察變數：

即個案僅接受一次的觀察或記錄，所產生的缺失值。

此種觀察變數值的遺漏又可再區分為單變量遺漏或多變量遺漏。

（2）時貫性變數：

個案在許多時點上被觀察或測量，資料為時貫性變數。

對於時貫性變數也可再細分為界遺漏、單變量遺漏或多變量遺漏。

（四）以資料型態而言：

欲插補變數本身的資料型態可分為兩大類，缺失資料類型不同，選擇的插補方式亦將有所不同，否則將影響插補效果：

（1）類別性資料（定性資料，categoricaldata）：

如性別、職業、學歷等變項皆屬於類別性資料。

（2）連續性資料（定量資料，continuousdata）：

如收入、年齡、國民所得等等，是屬於連續性資料變項。

目前多數研究在處理缺失值方面，通常可以下列五種處理方式：

（一）完整觀察體分析法（completeobservedvectorsmethod）；

（二）加權法（weightingmethod）；（三）迴歸法（regressionmethod）；（四）插補法（imputationmethod）；（五）隨機法（randommethod）。

以上所述這些方法中，最常被使用的就是插補法，在本研究中，則試圖以插補法中的熱卡法做為推估缺失作答反應的估算方法，以下茲將熱卡法的基本概念簡述如下。

熱卡插補法（Hotdeckimputationmethod，或稱立即修飾法）是利用最具同質性或同屬性（propensity）的受試者資料，作為缺失值的參考答案，是目前最受青睞的一種插補模式。

美國人口普查局（CurrentPopulationSurvey，CPS）和各種普查資料，廣泛應用熱卡插補法處理缺失值，CPShot-deckimputation可說是目前社會科學調查研究處理缺失值中，最成熟的一種方法（Oh&Scheuren,1980；Oh,Scheuren&Nisselson,1980；Welniak&Coder,1980；陳信木、林佳瑩，民86）。

熱卡插補法是依照輔助變項的不同條件，將未出現缺失值的觀察體分類成若干的「插補空格」（imputationcell），每一個出現缺失值的觀察體，依據輔助變項的條件，從相對應的插補空格中找尋一個觀察體，以其觀測所得的變項數值代替缺失值。

簡言之，即是將已填答資料劃分為若干區域，再從某一區中抽取一個值替代缺失值。

圖1即為熱卡插補法的基本架構圖。

在使用熱卡插補法時，隨機抽取乃是根據相同屬性的樣本，而非所有樣本資料皆是抽取對象，若相關屬性變項過多時，可用多元迴歸或其他方法將屬性變項依其量表和量表作答資料之相關程度予以加權，並計算得出一個屬性分數（propensityscore），且每一個樣本都有一個屬性分數，屬性對照即是將和問題有關的屬性變項加以分層（stratify），根據屬性分數相近的樣本資料進行熱卡插補（劉長萱、蔡政豐，民86）。

當缺失值為類別資料時，可根據屬性變數，將完整觀察值分為若干區，再根據缺失資料的屬性變數，檢查應落入哪一區中，並從中抽取一值做為插補值；而當缺失值非類別資料時，可將插補所得之值，和現有資料中的完整觀察值作比較，檢查此插補值與何者較接近，並以最接近者做為此缺失值的新插補值（曹志弘，民89）。

在此所指的輔助變項通常是人口變項或社會學變項，如：

年齡、性別、種族、教育與社經地位等，而由輔助變項所形成的插補空格，彼此之間必須是周延的（exhaustive）、互斥的（exclusive）與同質的（homogeneous）（陳信木、林佳瑩，民86）。

圖1熱卡插補法的基本架構

熱卡插補法的利弊為：

（1）允許完整資料分析方法。

（2）在分配及聯合方面優於平均數插補法。

（3）假定可忽略未回答反應。

由針對熱卡插補法的利弊分析，瞭解熱卡插補法雖可以正確估計原始問題答項的單元次數分配（marginalfrequencydistribution），但是隨機插補的資料樣本誤差較大，而原問題之間的結構關係可能在插補過程中無法完全保留，這樣的結果可能導致於後續研究無法探討量表的結構與更深入的多元分析。

因此，為了彌補這樣的缺失，熱卡插補法中的屬性對照（propensitymatching）成了不可或缺的步驟（Little,1988；Rubin,1986）。

由研究者歸納發現，一般而言，受試者可能出現的作答反應大致可分為以下四種：

（一）「全部填答」、

（二）「未填答部分試題答案--omittedresponse」（如：

12423..4323..44）、（三）「作答反應組型呈現規則反應」（如：

1234123412341234）與（四）「自某一題之後即呈現連續試題未作答者--notreached」（如：

1432………….）。

在進行試題分析時，對於作答未完全的受試者，分別有不同的處裡方式，許多學者多贊同跳答某幾題的這種類型（如上述的類型二），是我們所必須要特別關心的，有可能是基於某些因素而在閱讀完題目之後，選擇不回答。

另對於作答反應呈現規則狀與一連串空白未答者，有可能是受試者作答時間不及，願意猜測者會隨意猜測填答，不願意猜測者則將其空白未答，亦或者是受試者根本無心填答該測驗，不是拒絕作答，就是故意亂寫，針對這種情況，研究者或施測者很難能去推論出受試者的真實能力表現，而在目前評閱的研究報告中，學者們多持刪除該筆資料的態度。

在本研究中，研究者主要關心的未作答反應（non-response）是指少數跳答（omitted）之試題反應，研究探討的目標與插補試題亦僅限於少數跳答（omitted）之試題反應。

Ludlow與O’Leary（1999）認為教育評量發生缺失值的原因，主要有兩種：

一是受試者跳過（omitted）試題未填答，二是因為時間來不及（not-reached）而未作答。

當學生搞錯題意或讀過之後跳過該題，而決定不作答時，就產生含有遺漏值的作答反應；其次，因為時間因素，導致學生沒有機會繼續作答，而產生遺漏的作答反應，只是，對於作答時間不夠而導致遺漏的這個問題，必須再定義何謂來不及作答。

Lord（1974,1983）在多年前即談到，假如受試者在充分的時間內完成測驗，那將缺失值視為答錯或者忽略該作答反應，這是不對的處理方式。

Mislevy與Wu（1988,1996）亦提到缺失作答反應的結構若是故意跳答形式者，應是不可忽略的，亦即是研究者必須關心注意的，否則將會使估計結果與其他相關的分析報告中產生偏差結論。

DeAyala,Plake&與Impra（2001）在探討缺失值對於IRT能力估計精確性研究中發現，將跳過未答（omit）視為錯誤答案者，會出現最糟糕的分析結果；相對的，若以0.5取代未作答試題的答題反應進行能力估計，則出現幾乎與完整作答資料分析之結果一樣精確。

Lord（1980）在分析受試者的答題反應時，他認為那些來不及回答（not-reached）的試題在能力估計時，是可以被忽略的，因為它並未包含關於受試者能力估計的大量訊息；反之，在進行能力估計時，跳過未作答（omitted）的試題是不能被忽略的，因為他認為受試者知道IRT的能力估計計算。

因此，受試者可能或傾向於表現他有把握的試題來回答，而放棄可能填答錯誤的試題。

同樣的結果在Wang,Wainer與Thissen’s（1995）的研究中亦得到支持。

由以上文獻可發現，教育測驗研究學者對於跳答之試題是相當關心，且在進行試題與能力分析時，對該類試題的處理是必須更加謹慎小心的。

目前對於此應用性的實證研究並不太多，Liou與Cheng（1995a；1995b）、姚穎吉（民86）、陳政川（民86）皆曾建議以共通題（或稱定錨試題，anchoritem）的等化技術來處理不完整資料（Incomplete-data），亦即分派兩組考生進行部分試題的測驗，而兩份測驗中包含定錨試題，再將兩份試卷利用定錨試題進行測驗等化，兩份測驗完成等化後，藉由此來推估另一部份未作答試題之反應組型。

DeAyala,Plake與Impra（2001）對缺失值在IRT的受試者能力估計精確性影響研究中，嘗試使用三種方法來進行能力估計：

（一）二元權重（biweightestimation）；

（二）期望後驗法（expectedaposteriori，EAP）；（三）最大概似估計法（maximumlikelihoodestimation，MLE）。

而Huisman與Molenaar（2001）提出插補技術在對於缺失作答反應處理上，是最普遍被使用的方式，而且也是一種好的處理方式。

插補法是一種預測的形式，必須根據缺失值的預測分佈，而給予一個觀察值，在插補方式的選擇上亦必須多加注意，不正確的插補方式將會產生更大的誤差。

在Huisman與Molenaar（2001）研究中，即藉由不完整測驗設計，利用Hotdecknearestneighbor（HD）、correcteditemmeanimputation（CM）以及OPMISSmultipledrawsimputation等三種插補技術來估計受試者的潛在特質。

其中的平均數插補法（meanimputation）和熱卡插補法（Hotdeckimputation）可視為是一種隨機模式下的調整方式（randomization-basedadjustments）。

Huisman與Molenaar（2001）的研究結果指出，在所有的插補技術中，並沒有最佳的方法，而一般認為估計效果不錯的Hotdeckimputation，在這個研究中則是有最高的均方誤根（RMSD，rootmean-squaredeviation），且隨著缺失結構愈複雜，均方誤根的值快速激增；此外，若以模型假設之估計方法，發現以IRT模型為基礎的插補結果較佳。

目前，在教育測驗研究方面，較少有學者採用直接插補的方式來進行為作答反應的推估，較普遍使用的多是透過模型理論作推論，因為，教育測驗試題之題幹，彼此之間是相互獨立的，而選項間的關係也是相互獨立的。

因此，在對未完整作答測驗的受試者能力推估上，實在無足夠的訊息與證據去說明與推論前一題答對，與後一題未作答之間有何關係存在。

這也是一般插補法難以處理成就測驗中不完整作答反應的限制。

本研究主要目的在探討成就測驗中學生的未作答反應估計，研究者嘗試運用統計插補方法，企圖根據受試者的部分作答反應，推論出受試者的能力參數估計，並討論一般統計插補方式運用在成就測驗上的可行性與價值意義。

基於以上的動機，本研究之目的可簡述如下：

（一）統計插補技術應用於成就測驗之可行性；

（二）運用熱卡法於不同缺失比率之成就測驗上進行插補，比較其結果之差異。

貳、研究方法

（1）研究工具

本研究使用之工具為分別由數位目前任教於國中的數學老師所提供之成就測驗，並由研究者參酌坊間參考書挑選部分試題後，綜合彙編而成的國一第一冊數學科成就測驗。

在經過預試之後，進行試題分析，挑選出具有良好鑑別度，以及適當難度（中等難度）之優良試題，編製成一份含有40道試題的參數化數學科成就測驗。

（2）研究對象

本研究對象之取得，乃是研究者發函徵詢自願接受本研究測驗之學校，在經得學校同意之後，再郵寄給各校之負責教師，由國二學生接受測驗。

回收後得到有效的正式測驗樣本共1102人；經過整理、分析之後，得到受試學生作答題數的統計結果，如表1所示，由此表可得知僅有760份測驗是作答完整的，約佔總樣本數之69%，換言之，在本研究中，高達31％的測驗都是含有缺失資料的，其中更包含將近8%的測驗作答反應是缺失15%以上。

表1作答反應統計資料

作答題數

次數

百分比

累積次數百分比

3-10

11-15

16-20

1.0

1.9

21-25

1.5

3.4

26-30

2.1

5.5

6.2

6.9

7.7

1.3

9.0

2.1

11.1

1.9

13.0

2.9

15.9

4.4

20.3

119

10.8

31.1

760

69.0

100.0

Total

1102

100.0

（3）研究程序

本研究程序可分為兩大部分，其包含以下步驟：

1.模擬研究部分：

利用S-PLUS2000程式模擬，仿照實證資料型態，產生符合均勻分配（DiscreteUniformDistribution）的受試者作答反應。

本研究以符合IRT假設的最小樣本數：

1,000為模擬研究之樣本數；此外，另又設定不同的缺失比例，包含10%、30%、50%等三種。

根據研究者詢問任課教師在一般評量時的缺失比例經驗，缺失比例並無不一定數據，需視測驗科目、測驗目的，以及測驗題型等等因素而定。

因此，研究者假定三種缺失比例條件，討論不同缺失比例下資料差補後的分析效果為何。

2.在實證資料部分：

研究者將經過預試之試題進行試題分析，而成為正式施測用之測驗。

透過立意取樣方式，由研究者發函徵求有意願接受施測之國中數學教師協助，給予台灣地區國二學生進行預試。

回收測驗之後，根據本研究所定義之未作答反應，進行樣本的篩選。

得到本研究之全部樣本數為1102人，而缺失題數太多（缺失超過6題以上者），或是有連續缺失未答完（not-reached）之試題，皆排除在本研究分析之外。

作答完整的共有760份測驗，而缺失題數佔總題數之5%以下（作答38題以上）、5%～10%（作答36～37題）、10～15%（作答34～35題）與15％以上（作答少於34題）者，分別各為168人、53人、37與84人。

3.最後，對模擬資料與實證資料之未作答反應進行熱卡插補估計，並討論其分析結果。

參、研究結果與討論

1、在不同缺失比率下，利用熱卡插補法所得之試題參數估計結果

（1）鑑別參數

模擬資料在樣本數為1000，隨著缺失比例高達50%時，在經過插補運算之後，重新獲得的作答反應資料，經試題分析之後，最大與最小的鑑別參數值已不同於其他組別，且各參數的標準差相較於其他組別，有明顯增高的趨勢。

表2與表3分別為在不同缺失比例下，鑑別參數及其標準差之描述統計分析結果。

發現無論在平均數、標準差，或是偏態、峰度等指標，皆顯示在缺失比例15%以下的資料，較具有一致性的結果，而高於30%缺失比例的資料，經過插補技術的處理後，描述統計結果顯示與原始資料、以及缺失比例較少各組之分析訊息有差異，尤其在標準差這項指標上，當缺失比例達50%（

＝0.272234）時，與其他各組的標準差（

＝5.08230E-02；

＝5.34125E-02；

＝6.84049E-02）相較，有更明顯的差異存在。

表2不同缺失比例所估計之鑑別參數的描述統計（n=1000）

1000a

10%a

30%a

50%a

Mean

.242500

.244350

.257450

.282300

Std.Deviation

5.08230E-02

5.34125E-02

6.84049E-02

.272234

Skewness

.868

.893

.184

.952

Kurtosis

.379

.385

.496

-1.042

Range

.2160

.2230

.3280

.7080

Minimum

.1720

.1680

.1170

.0760

Maximum

.3880

.3910

.4450

.7840

表3不同缺失比例所估計之鑑別參數標準差的描述統計（n=1000）

e1000a

e10%a

e30%a

e50%a

Mean

6.08250E-02

6.12500E-02

6.31750E-02

4.10750E-02

Std.Deviation

1.19355E-02

1.25836E-02

1.50416E-02

2.13930E-02

Skewness

.734

.763

-.226

.776

Kurtosis

.022

.067

.158

-1.118

Range

.0500

.0520

.0700

.0620

Minimum

.0430

.0420

.0300

.0190

Maximum

.0930

.0940

.1000

.0810

在實證研究部分，如表4所示。

以第1道試題為例，經過預試所編製的正式測驗，其鑑別度值為1.517，而進行正式測驗後，發生約31%缺失作答反應，經試題分析後得到鑑別參數為1.1890。

而在利用熱卡插補法，將其缺失作答反應補齊之後，得到試題鑑別參數為1.2980。

若刪除全部缺失作答反應，僅以完整作答反應資料（每位受試者皆填答40道試題）進行試題分析者，得到鑑別參數為1.3200。

另在研究者設定的缺失資料比例部分，缺失作答反應在佔總題數5%以下，即作答題數為38題以上，包含作答完整者，經熱卡法插補完整後所得的試題鑑別參數為1.3330；而當缺失作答反應佔總題數之10%以下時，即作答題數為36題以上，包含作答完整者，經熱卡法插補完整後所得的試題鑑別參數為1.3240；當缺失作答反應在佔總題數15%以下，即作答題數為34題以上，包含作答完整者，經熱卡法插補完整後所得的試題鑑別參數為1.3100。

根據以上數據意義之說明，研究者發現在實證資料中，缺失比例在15%以下的情形，插補之作答反應資料經過試題分析之後的結果，並未有明顯的差異性存在。

換言之，在各類不同缺失比例模式設定下之鑑別

展开阅读全文