330 likes | 773 Views
IRT 之測驗編製. 第二組 OMS096125 康金雲 OMS096102 羅文虹 OMS096111 歐瑞蘭. IRT 之測驗編製. 壹、古典測驗理論編製測驗的方法 貳、古典測驗理論的缺失 叁、 彌補古典測驗理論編製測驗的缺失方法 肆 、 IRT 測驗編製的基本方法 伍、利用訊息函數編製測驗的優點與限制 陸、訊息函數的運用 --- 編製特殊測量目的的測驗 柒、面臨的問題與解決之道. 古典測驗理論編製測驗的方法. 依據:難度 ( 接近 0.5 為佳 ) 鑑別度 ( 愈高愈好,最低 0.25 以上 ) 雙向細目表 VS. 試題分配比例
E N D
IRT之測驗編製 第二組 OMS096125 康金雲 OMS096102 羅文虹 OMS096111 歐瑞蘭
IRT之測驗編製 • 壹、古典測驗理論編製測驗的方法 • 貳、古典測驗理論的缺失 • 叁、彌補古典測驗理論編製測驗的缺失方法 • 肆、 IRT測驗編製的基本方法 • 伍、利用訊息函數編製測驗的優點與限制 • 陸、訊息函數的運用---編製特殊測量目的的測驗 • 柒、面臨的問題與解決之道
古典測驗理論編製測驗的方法 • 依據:難度(接近0.5為佳) 鑑別度(愈高愈好,最低0.25以上) • 雙向細目表VS.試題分配比例 (郭生玉,民88,頁269-272)
古典測驗理論的缺失 一、抽樣變動大 二、能力難比較 三、複本難實施 四、缺乏預測力 五、等測量標準誤 (Guion & Ironson,1983;Wright,1977;王寶墉,民84)
古典測驗理論的缺失-抽樣變動大 • 項目難度 樣本能力高的受試多 P值高 樣本能力低的受試多 P值低 • 項目鑑別度 樣本具同質性 D值小 樣本具異質性 D值大 • 信度指數-信度估計方法受樣本分數的變動性影響 樣本依賴
古典測驗理論的缺失-能力難比較 • 相同測驗的前後測分數 • 複本測驗 • 非複本(nonparallel)但功能相同的測驗 可比較 無法提供有意義比較
古典測驗理論的缺失-複本難實施 • 古典測驗理論對信度的假設是建立在複本(parallel forms)測量的概念假設上。 • 假設1:每位受試者接受同一份測驗無數 次,每次測量都獨立不相關。 • 假設2:每種測驗都製作複本。 假設不合理
古典測驗理論的缺失-缺乏預測力 • 忽視受試者的試題反應組型(item response pattern),認為原始得分相同的受試者,其能力必定相同。 於是… 預測受試者在一個新測驗可能的表現 不可能
古典測驗理論的缺失-等測量標準誤 • 古典測驗理論以相同的測量標準誤作為每位受試者的測驗誤差指標,沒有考慮到個別差異,其實不同能力組在測驗的穩定性並不相同。 假設不合理
彌補古典測驗理論編製測驗的缺失方法 • IRT 運用試題和測驗訊息函數來參與編製測驗的工作 *IRT的特點—1.所採用的參數不受樣本影響 2.提供個別差異的測量誤差指標 3.能力可比較 4.試題訊息量及試卷訊息量評定測量準確性 5.能提供較精確的能力估計值 6.適合度考驗值(statistic of goodness-of-fit)提供參考指標 (Hambleton,1989;Hambleton&Cook,1977; Hambleton,Swaminathan, &Rogers,1991;Lord,1980)
CTT與IRT的比較 IRT的特點 1.所採用的參數不受樣本影響 2.提供個別差異的測量誤差指標 3.能力可比較 4.試題訊息量及試卷訊息量評定 測量準確性 5.能提供較精確的能力估計值 6.適合度考驗值(statistic of goodness-of-fit)提供參考指標 CTT的缺失 一、抽樣變動大 二、能力難比較 三、複本難實施 四、缺乏預測力 五、等測量標準誤
IRT測驗編製的基本方法 • 工具:訊息函數(information function ) • 過程:1.選定合適的試題反應模式。 2.分析資料。 3.獲得試題參數和學生的能力參數 估計值。 4.獲得訊息函數值。 5.利用試題訊息函數,編製測驗。
訊息函數(information function ) 余民寧,ch7 基本概念: • 試題反應理論提出一個能夠用來描述試題或測驗、挑選測驗試題、以及比較測驗的相對效能的實用方法。 • 需要使用試題訊息函數(item information function) ,作為建立、分析、與診斷測驗的主要參考依據。
試題訊息函數的定義 代表試題 在能力為 上所提供的訊息
測驗訊息函數(test information function) Birnbaum(1968)定義: 值上,該試題訊息函數之總和。
如何利用訊息函數編製測驗? ( Lord, 1977 ) • 決定「目標訊息函數」(target information function)。 • 挑選試題,使得試題訊息量累加起來的和,填滿目標訊息函數下最難填的部份(通常是訊息函數曲線最突起的部份)。 • 每加入一個試題,便計算現有測驗試題所有的測驗訊息函數。 • 繼續上述的選題步驟,直到測驗訊息函數接近目標訊息函數。
利用訊息函數編製測驗的優點 • 能增進對能力參數估計值的精確性。(說明一) • 減少錯誤率(error rates)(亦即是造成分類錯誤的可能機率)。(說明二)
說明一 挑選出能夠使該能力範圍內的測驗訊息量達到最大的測驗試題來,將能增進對能力參數估計值的精確性。
說明二 以試題反應理論為架構,來挑選最理想的測驗試題的作法,其試題、學生、和切割分數都是建立在同一量尺的基礎上,所以方便測驗的編製與測驗結果的解釋。
利用訊息函數編製測驗的限制 需要仰賴電腦和測驗編製專家的共同合作,否則光靠筆算會費時、費力。
訊息函數的運用編製特殊測量目的的測驗 1.廣泛能力測驗的編製 2.效標參照測驗的編製
* 能力範圍 -2.00~2.00 * * ( ) * 平坦的曲線 *適用的能力範圍較為寬廣 (Lord 1977) 廣泛能力測驗的編製含有10、15、和20題試題測驗的測驗訊息函數
* 區辨精熟、非精熟 * 切割分數 * 尖狹峰分配的曲線 (Lord 1977) 效標參照測驗的編製理想的和隨機的挑選方法下15個試題的測驗訊息函數
對高能力學生而言,理想的測驗表現的不如標準測驗表現的好。對高能力學生而言,理想的測驗表現的不如標準測驗表現的好。 ∵理想的測驗僅包含能夠在切割分數附近發揮鑑別功能的試題,而忽略許多適合於高能力學生的試題的緣故。由此可見,標準測驗包含比較多的異質試題在內。 *理想的測驗在切割分數(即 )處,提供較大的測量精確性 。 *理想的測驗比標準測驗在此處高出60%的相對效能 。 *標準測驗的長度必須從15題增加到24題,才能發揮與理想的測驗同等的效能。 理想的v.s隨機的15題試題測驗的相對效能
理想的與隨機的挑選方法下15個試題的估計標準誤理想的與隨機的挑選方法下15個試題的估計標準誤 ◎題庫中的試題愈異質化,或者,所欲編製的測驗題數佔題庫 大小的比率愈小─→以理想的試題挑選方法為佳。 ◎理想的測驗的估計標準誤比隨機的測驗的估計標準誤還小。
面臨的問題與解決之道 • 忽視內容的考慮事項,往往會導致編製出一個缺乏內容效度的測驗來 。 • 可能高估高鑑別度(即α)值,以致於訊息函數也許會產生偏差。 ★ van der Linden & Boekkooi-Timminga(1989) 使用線性規劃(linear programming)的技術。 ★儘量使用大樣本,以確保試題參數的估計值都很正確、很穩定。