IRT 之測驗編製

IRT之測驗編製 第二組 OMS096125 康金雲 OMS096102 羅文虹 OMS096111 歐瑞蘭

IRT之測驗編製 • 壹、古典測驗理論編製測驗的方法 • 貳、古典測驗理論的缺失 • 叁、彌補古典測驗理論編製測驗的缺失方法 • 肆、 IRT測驗編製的基本方法 • 伍、利用訊息函數編製測驗的優點與限制 • 陸、訊息函數的運用---編製特殊測量目的的測驗 • 柒、面臨的問題與解決之道

古典測驗理論編製測驗的方法 • 依據：難度(接近0.5為佳) 鑑別度(愈高愈好，最低0.25以上) • 雙向細目表VS.試題分配比例 (郭生玉，民88，頁269-272)

古典測驗理論的缺失 一、抽樣變動大二、能力難比較三、複本難實施四、缺乏預測力五、等測量標準誤 (Guion & Ironson,1983；Wright,1977；王寶墉，民84)

古典測驗理論的缺失-抽樣變動大 • 項目難度樣本能力高的受試多 P值高樣本能力低的受試多 P值低 • 項目鑑別度樣本具同質性 D值小樣本具異質性 D值大 • 信度指數-信度估計方法受樣本分數的變動性影響樣本依賴

古典測驗理論的缺失-能力難比較 • 相同測驗的前後測分數 • 複本測驗 • 非複本(nonparallel)但功能相同的測驗可比較無法提供有意義比較

古典測驗理論的缺失-複本難實施 • 古典測驗理論對信度的假設是建立在複本(parallel forms)測量的概念假設上。 • 假設1：每位受試者接受同一份測驗無數次，每次測量都獨立不相關。 • 假設2：每種測驗都製作複本。假設不合理

古典測驗理論的缺失-缺乏預測力 • 忽視受試者的試題反應組型(item response pattern)，認為原始得分相同的受試者，其能力必定相同。於是… 預測受試者在一個新測驗可能的表現不可能

古典測驗理論的缺失-等測量標準誤 • 古典測驗理論以相同的測量標準誤作為每位受試者的測驗誤差指標，沒有考慮到個別差異，其實不同能力組在測驗的穩定性並不相同。假設不合理

彌補古典測驗理論編製測驗的缺失方法 • IRT 運用試題和測驗訊息函數來參與編製測驗的工作＊IRT的特點—1.所採用的參數不受樣本影響 2.提供個別差異的測量誤差指標 3.能力可比較 4.試題訊息量及試卷訊息量評定測量準確性 5.能提供較精確的能力估計值 6.適合度考驗值(statistic of goodness-of-fit)提供參考指標 (Hambleton,1989；Hambleton＆Cook,1977； Hambleton,Swaminathan, ＆Rogers,1991；Lord,1980)

CTT與IRT的比較 IRT的特點 1.所採用的參數不受樣本影響 2.提供個別差異的測量誤差指標 3.能力可比較 4.試題訊息量及試卷訊息量評定測量準確性 5.能提供較精確的能力估計值 6.適合度考驗值(statistic of goodness-of-fit)提供參考指標 CTT的缺失一、抽樣變動大二、能力難比較三、複本難實施四、缺乏預測力五、等測量標準誤

IRT測驗編製的基本方法 • 工具：訊息函數（information function ） • 過程：1.選定合適的試題反應模式。 2.分析資料。 3.獲得試題參數和學生的能力參數估計值。 4.獲得訊息函數值。 5.利用試題訊息函數，編製測驗。

訊息函數（information function ） 余民寧，ch7 基本概念： • 試題反應理論提出一個能夠用來描述試題或測驗、挑選測驗試題、以及比較測驗的相對效能的實用方法。 • 需要使用試題訊息函數(item information function) ，作為建立、分析、與診斷測驗的主要參考依據。

試題訊息函數的定義 代表試題在能力為上所提供的訊息

測驗訊息函數(test information function) Birnbaum(1968)定義：值上，該試題訊息函數之總和。

如何利用訊息函數編製測驗？ （ Lord, 1977 ） • 決定「目標訊息函數」(target information function)。 • 挑選試題，使得試題訊息量累加起來的和，填滿目標訊息函數下最難填的部份（通常是訊息函數曲線最突起的部份）。 • 每加入一個試題，便計算現有測驗試題所有的測驗訊息函數。 • 繼續上述的選題步驟，直到測驗訊息函數接近目標訊息函數。

目標訊息函數(target information function)

利用訊息函數編製測驗的優點 • 能增進對能力參數估計值的精確性。（說明一） • 減少錯誤率(error rates)（亦即是造成分類錯誤的可能機率）。（說明二）

說明一 挑選出能夠使該能力範圍內的測驗訊息量達到最大的測驗試題來，將能增進對能力參數估計值的精確性。

說明二 以試題反應理論為架構，來挑選最理想的測驗試題的作法，其試題、學生、和切割分數都是建立在同一量尺的基礎上，所以方便測驗的編製與測驗結果的解釋。

利用訊息函數編製測驗的限制 需要仰賴電腦和測驗編製專家的共同合作，否則光靠筆算會費時、費力。

訊息函數的運用編製特殊測量目的的測驗 1.廣泛能力測驗的編製 2.效標參照測驗的編製

＊能力範圍 -2.00~2.00 ＊＊（）＊平坦的曲線＊適用的能力範圍較為寬廣（Lord 1977）廣泛能力測驗的編製含有10、15、和20題試題測驗的測驗訊息函數

＊區辨精熟、非精熟 ＊切割分數＊尖狹峰分配的曲線（Lord 1977）效標參照測驗的編製理想的和隨機的挑選方法下15個試題的測驗訊息函數

對高能力學生而言，理想的測驗表現的不如標準測驗表現的好。對高能力學生而言，理想的測驗表現的不如標準測驗表現的好。 ∵理想的測驗僅包含能夠在切割分數附近發揮鑑別功能的試題，而忽略許多適合於高能力學生的試題的緣故。由此可見，標準測驗包含比較多的異質試題在內。＊理想的測驗在切割分數（即）處，提供較大的測量精確性。＊理想的測驗比標準測驗在此處高出60%的相對效能。＊標準測驗的長度必須從15題增加到24題，才能發揮與理想的測驗同等的效能。理想的v.s隨機的15題試題測驗的相對效能

理想的與隨機的挑選方法下15個試題的估計標準誤理想的與隨機的挑選方法下15個試題的估計標準誤 ◎題庫中的試題愈異質化，或者，所欲編製的測驗題數佔題庫大小的比率愈小─→以理想的試題挑選方法為佳。 ◎理想的測驗的估計標準誤比隨機的測驗的估計標準誤還小。

面臨的問題與解決之道 • 忽視內容的考慮事項，往往會導致編製出一個缺乏內容效度的測驗來。 • 可能高估高鑑別度（即α）值，以致於訊息函數也許會產生偏差。 ★ van der Linden & Boekkooi-Timminga(1989) 使用線性規劃(linear programming)的技術。 ★儘量使用大樣本，以確保試題參數的估計值都很正確、很穩定。

報告完畢謝謝大家

IRT 之測驗編製

IRT 之測驗編製

Presentation Transcript

Estimating IRT models with - gllamm -

IRT Equating

Current IRT Projects

An Introduction to Multidimensional IRT

IRT

IRT Model Misspecification and Metric Consequences

IRT Interview

IRT Research Overview

MMS Update CDG IRT – Las Vegas

IRT programoje Horizon 2020

April IRT Meeting

Applications of IRT Models

IRT Illy és László

A New IRT Story…

Sidevõrgud IRT 4060/ IRT 0020 vooruloeng 10 / 17. nov 2004 Võrgusõlmed

Sidevõrgud IRT 4060/ IRT 0020 vooruloeng 6 / 20. okt 2004

IRT UPDATES

Sidevõrgud IRT 4060/ IRT 0020 vooruloeng 2 / 22. sept 2004

Current IRT Projects

Multitrait Scaling and IRT: Part I

IRT basics: Theory and parameter estimation

STRONG TRUE SCORE THEORY- IRT