1 / 43

試題反應理論 (Item Response Theory)

試題反應理論 (Item Response Theory). Helen Ou 2007 12.28 at Psy Test Course. 課程主題. 10 月 24 日 ( 三 ) 心理測驗編製與基本統計 11 月 28 日 ( 三 ) 古典測驗理論 — 信度理論 12 月 26 日 ( 三 ) 試題反應理論. 複習上次課程. 真實分數模式. 真實分數的存在並不受測量次數的影響,它代表長期測量結果「不變」的部份。而實際上,單獨一次測量所得的實得分數,

kuame-simon
Download Presentation

試題反應理論 (Item Response Theory)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 試題反應理論(Item Response Theory) Helen Ou 2007 12.28 at Psy Test Course

  2. 課程主題 • 10月24日(三) 心理測驗編製與基本統計 • 11月28日(三) 古典測驗理論—信度理論 • 12月26日(三) 試題反應理論

  3. 複習上次課程 真實分數模式 • 真實分數的存在並不受測量次數的影響,它代表長期測量結果「不變」的部份。而實際上,單獨一次測量所得的實得分數, • 總會與真實分數間產生一段差距,這段差距即稱作「隨機誤差分數」(random error score), • 或簡稱為「誤差」(error);誤差分數深受測量工具之精確度的影響很大,它代表某次測量結果「可變」的部份。若以數學公式來表示,這兩種分數與實得分數間的關係可以表示如下:

  4. 複習上次課程 真實分數理論的基本假設一 χ = t + e χ 代表實得分數, t 代表真實分數, e 代表誤差分數。

  5. 複習上次課程 Cronbach 係數 係數 = i=題數 S2i=每一題的總變異量 S2x=總分的總變異量

  6. 複習上次課程 測量標準誤 • 如果我們能以同一個測驗對一個學生重複測驗多次,每次的得分有點不同,這位學生分數的變異量之大小與信度有直接的關係。信度愈低,則學生的變異量(散佈範圍)就愈大。信度愈高,則各次得分之變異量就愈小。我們可用統計的方法來預估學生測驗分數可能的變異量,此即「測量標準誤」(Standard error of measurement)。 測量標準誤(^)=

  7. 1.圖一為一正立方體,A,B,C分別為所在的邊之中點,通過A,B,C三點的平面與此立方體表面相截,問下列何者為其截痕的形狀?1.圖一為一正立方體,A,B,C分別為所在的邊之中點,通過A,B,C三點的平面與此立方體表面相截,問下列何者為其截痕的形狀? (1) 直角三角形 (2) 非直角的三角形 (3) 正方形 (4) 非正方形的長方形 (5) 六邊形

  8. 複習上次課程 試題統計分析:難度(通過率) • 試題的難度 (P) 被定義為全體受試者答對或通過該題的百分比 (percentage passing) R=所有考生中答對的人數 n=所有考生人數

  9. 複習上次課程 鑑別度 (item discrimination) • 比較高、低分組的受試者在個別試題上通過人數的百分比, D 愈大表示試題愈能鑑別出高、低分組的受試者,並且個別試題與測驗總分的一致性愈高。 PH=所有考生中分數前33%者在該題的答對率 PL=所有考生中分數後33%者在該題的答對率

  10. 圖5 地理題 (P=.8,D=.32) 下圖是北半球四座山的示意圖,圖中分別標明山腳處不月份的月均溫。平均而言,地勢每升高100公尺,氣溫降低0.6℃。請問哪一座山的山頂,最可能出現終年積雪的現象﹖ (A)甲 (B)乙 (C)丙 (D)丁

  11. 歷史題(P=.67,D=.45)(P男=.60,P女=.71) • 作家描述一個城市:「與倫敦人口差不多,都在五萬人上下,全世界最上等的羊毛在此地加工,織成布料後,行銷各地。許多商人集資,要在市中心建一座大教堂。工程進行中,商船隊除了帶回印度香料外,還帶回亞洲黑鼠,使全城五分之四的人在一年中相繼死亡,勞工短缺,必須緊急進口奴隸應急,教堂興建工作才得以繼續。」這座城市可能是:(A) 十世紀的君士坦丁堡 (B) 十二世紀的雅典(C) 十四世紀的佛羅倫斯 (D) 十六世紀的巴黎

  12. 數學甲試卷難易度分布

  13. 指考國文

  14. 古典測驗理論之限制 • 用原始分數(或衍生分數)代表能力 • 仰賴複本測驗(parallel forms) • 古典測驗理論所採用的指標,諸如:難度、鑑別度、選擇題的誘答力、信度等,都是樣本依賴的指標。 • 假定所有人具有相同的的測量標準誤

  15. 試題反應理論(item response theory, IRT) • 受試者在某測驗上的表現情形,可由一組因素來加以預測或解釋,這組因素稱為潛在特質(latent traits)或能力(abilities)。 • 受試者的表現和潛在特質之間的關係,可透過一條連續遞增(monotonicallyincreasing)的函數來解釋,把不同能力的學生在某試題的得分期望連結成線,所形成的曲線則稱為試題特徵曲線(item characteristiccure,簡稱ICC)

  16. 1.00 .50 .00 p=.001 X L-θ 能力(或特質)極低的受試者(L-θ)答對的機率(p)微乎其微,我們以答對率p=.001為例來做圖. Probability 答對機率 特質程度

  17. p=.999 1.00 X .50 .00 L-θ 能力(或特質)極高的受試者(H-θ)答對的機率(p)極高,我們以答對率p=.999為例來做圖. Probability 答對機率 X H-θ 特質程度

  18. p=.900 1.00 X .50 .00 X 其餘受試者答對的機率介於兩者之間,我們以答對率p=.900為例來做圖. X H-θ L-θ 特質程度

  19. 1.00 答對 答錯 .80 .60 依此類推,將其他能力之受試者標示出來,此即試題特徵曲線 .40 . 20 .00

  20. 1.00 .80 .60 .40 . 20 .00 99%

  21. 1.00 .80 .60 p=.50 .40 . 20 1.00 .80 .60 p=.50 .40 . 20 .00 “Easy” item “Difficult” item

  22. 試題反應理論(item response theory; IRT) 參數:b [beta] 試題難度 a [afa] 試題鑑別度 c 猜測度 i=1…..n,n是測驗的總題數,J是考生數 e代表以底為2.718的指數。 常數D=1.702,θj 為考生 j 的能力 pi(Θ) 為能力為ΘJ的考生答對i試題i的機率 且pi(Θ)是一種S形曲線,其值介於0與1之間

  23. 單參數對數型模式 試題難度參數b正好坐落於正確反應機率為0.5時『能力量尺』上的點 當s型曲線越偏左,代表試題越簡單

  24. 雙參數對數型模式 試題鑑別度a為S型曲線的斜率 S型曲線越平緩代表試題越簡單

  25. 三參數對數型模式 猜測度c 代表低能力學生答對某試題的機率

  26. IRT基本假設 • 單向度(unidimensionality) :測驗中的各個試題都測量到同一種共同的能力或潛在特質 • 局部獨立性(local independence):考生之作答情形完全由能力(特質)所影響 • 非速度測驗 • 知道--正確假設(know--correct assumption)

  27. 試題訊息曲線(IIC) 試題訊息量和受試能力間的關係則以試題訊息函數(item information function;IIF)來表示,若將函數式以圖形表示則稱為試題訊息曲線(IIC) (Lord,1980)。

  28. 描述試題或測驗、挑選測驗試題、以及比較測驗的相對效能的實用方法,該方法即需要使用試題訊息函數(item information function),作為建立、分析、與診斷測驗的主要參考依據。   試題訊息函數的定義如下:

  29. 圖14

  30. IRT不如CTT普遍之因 • IRT是一種複雜深奧的測驗理論,這對於一般教育與心理學界學者而言,無非是一大挑戰。 • 多數當代測驗理論學者偏愛對理論模式的探討,遠勝於對實際應用的推廣工作。 • 過去,電腦科技的進步有限,當代測驗理論中對模式參數的估計,難以用手算或小型計算機順利進行,故在應用上更受限制。 • 礙於嚴苛的基本假設,當代測驗理論所能適用的教育與心理測驗資料有限,並且需要大樣本的配合,因此使得它的應用性大打折扣。

  31. IRT的應用 • 編製測驗※ • 測驗等化※ • 建立題庫※ • 電腦化適性測驗

  32. 電腦化適性測驗流程

  33. 國中基測為何要用IRT • 兩次考試,考生有超過一次的施測機會,從中選出比較能夠代表真正能力的那一次的測驗分數 • 兩次考試在組卷前,就要先知道試題的難度,必須預試,並建立題庫。不同時間與不同樣本建立試題難度,必須要用IRT。 • 每次的分數,是考生的能力(θ)轉成量尺分數60分 • 兩次考完試的分數,要進行分數等化,沒有相同題、相同人也有學習進步的問題,僅能用用IRT進行等化。

  34. 國中基測測驗編製方式 命題 預試 多次,少題,小樣本 入題庫 第一次組卷 第一次考試 成績公佈,第一次招生 第二次組卷 第二次考試 等化 成績公佈,第二次招生

  35. 國中基測用單參數模式

  36. 國中基本學力測驗分數的建立 SEM = SD x 40 題左右的測驗,信度應該有 0.85 左右。 採用 Kelley (引自 Brennan , 1989)對測量標準誤差分數的建議,認為以 3 分為一個測量標準誤差單位較為理想。 計算出來的群體分數的標準差為7.75。再根據常態分布的機率來看,正負四個標準差就能涵蓋幾乎全部( 99.99% )的人。因此,若要涵蓋所有的群體,量尺分數就必須要有62分( 7.75*4*2 )。 為了使用上的方便,我們單純的將量尺分數定成 1-60 分,這就是基本學力測驗分數的由來。

  37. 基測的特色:量尺分數 每科60分 滿分300分

  38. 兩次國中基測如何進行等化 • IRT 最為有力的地方,是同一個考生若在同一個時段考兩次試,即使作答不同的試題,所估計出來的兩個能力參數的值,理論上是一樣大小的。如果考完第一次之後隔了一些時日再考第二次,以至於兩次考試之間有成長(或進步)的現象存在,那麼根據第二次測驗的結果所估計得到的能力參數值,將會大於第一次測驗後所估計得到的。因為IRT 具備這樣的特性,因此透過用IRT 方法所進行的等化之後,我們有信心考生在第二次測驗所得到的量尺分數絕對是合理、公平、公正的;而且從兩次測驗所得到的量尺分數之間也是可以相互比較的。 • 影響整個基本學力測驗等化程序的關鍵點,其實是在於各個題目的試題參數(item parameter)是否被精確地估計

  39. 國中基測的問題 • 基本學力測驗試題較簡單,高分群分發困難。考生在簡單題中重複練習,害怕錯誤。(與IRT無關) • 兩次考試的等化如何進行,只要不是篤定第一志願,再考一次是有利的。 (與IRT無關) • 要答對相當題才有分。高分者錯的少扣的多。這是評量觀點,不是教育觀點。 (與IRT有關)

  40. 基測的改良:計分方式改採直線轉換,減少全對與錯一題間的分數差;轉換後之分數(包含負分)再平移20 分,滿分為80 分

  41. 祝你 聖誕快樂 新年蒙福

More Related