測驗的信度

測驗的信度 教育測驗與評量胡悅倫教授

壹、信度的意義和原理 • 信度的意義 • 信度的原理 • 真實分數與測量誤差 • 真實分數與信度

信度的意義 • 從測量的一致性來看，信度就是指相同的個人在不同的時間，以相同的測驗測量，或以副本測驗（相同的試題）測量，或在不同的情境下測量，所得結果的一致性（consistency）。

信度的原理-真實分數與測量誤差 • 實得分數是由兩部份組成： X = T + E X：實得分數 T：真實分數 (沒有受到測量誤差影響的部分) E：誤差分數

某生在十個複本測驗的 實得分數與誤差分數 X = S2 = e

測量誤差 • 可分為： • 非系統誤差（unsystematic error） • 系統誤差（systematic error）

非系統誤差 • 導致非系統誤差的因素： • 受試者的身心狀況，如動機、注意與情緒 • 測驗情境 • 測驗試題，如取樣、難度、計分、數量等 • 這些因素是在隨機，沒有規則和不可預測的方式下，隨著情境不同而影響測驗分數的。

系統誤差 • 在一個固定、一致的方式下高估或低估分數。 • 在不同情境中，它對一位受試者的影響是一樣的。 • 對所有受試者在相同的情境中的影響，也是一樣的。 • 又稱為常誤（constant error）或偏誤（biased）。

S S S S S S S S S S S 2 2 2 2 2 2 2 2 2 2 2 x x x x e x t x e x t （公式二） = + 信度的原理-真實分數與信度 = + （公式一）實得分數的總變異量

S S r S S S r r S S S 2 2 2 2 2 2 2 2 e t x x x xx xx x e xx x 真實分數與信度（續）（公式三） = （公式四） = - （公式五） = 1 -

貳、信度的類型 • 估計信度的方法 • 重測方法 • 複本方法 • 內部一致性方法 • 評分者方法 • 信度類型與測量誤差

估計信度的方法-重測方法 • 估計測驗分數是否穩定最直接的方法。 • 重複測量相同的一群受試者兩次。 • 或稱再測信度（test-retest reliability coefficient）。 • 此係數可以表明測驗結果經過一段時間後的穩定性。

導致變異誤差的原因 • 測驗不穩定：兩次測驗分數的相關不高或很低。 • 導致這種變異的誤差，主要是： • 受試者本身情況的改變，如生氣、疲勞、情緒緊張、焦慮、動機等； • 測驗情境的變化，如天氣、吵雜、燈光等。 • 重測信度愈高，分數受到這兩個因素的影響就愈小。

間隔時間的長短 • 再測信度的高低和兩次間隔時間的長短有密切的關係。 • 間隔時間愈長，信度愈低。 • 間隔時間愈短，信度愈高。 • 適當的間隔時間是一週或兩週。 • 不過並沒有單一標準： • 年齡愈小的受試者，間隔時間較短。

再測信度的缺點 • 容易受到練習與記憶的影響 • 測驗題目的性質因重測而改變，尤以推理與思考的題目為然。 • 兩次測驗時難以有相同的測驗情境。

估計信度的方法-複本方法 • 測驗應該被視為從試題的母群體（population or universe）所抽出的樣本，因此，每一個測驗都可以有許多複本測驗（alternate-forms test）。 • 例如:一本國語詞典，可抽出20個字而編成相當多的字彙測驗。

複本信度（alternate-forms reliability ） • 採用複本方法所估計的信度。 • 旨在確定我們有多少信心能夠從個人在測驗上的得分，推論到其他相等複本測驗上的得分。 • 複本測驗：內容、型式、題數、難度、指導說明、時間限制與例題等方面，類似或相等的兩份測驗。

複本測驗的實施方式 • 在同一個時間連續實施 • 間隔一段時間實施

估計信度的方法-內部一致性方法 • 折半方法 • 庫李方法 • 評分者方法

折半方法 • 估計折半信度的首要問題：如何將測驗分成相等的兩半？ • 分成兩半的方法： • 依照隨機方法將題目分為兩半； • 依照奇數題和偶數題分為兩半。 • 後一種方法簡便易行，較為普遍。

r xx 斯布公式（Spearman-Brown Formula） nr 1+(n-1)r = （公式六） rxx ：估計的信度 r ：原測驗的信度 n ：測驗加長或減短的倍數

r r xx hh 斯布公式（續）因為兩半測驗的相關，只是以測驗題數的一半為估計全測驗的信度，測驗長度要加倍，公式六中的n就成為2，故可以改寫為 2r 1+ = hh （公式七） rxx ：全測驗的信度 rhh ：兩半測驗的相關

Σx= 7X= 1.4Sx = .80 Σy= 3Y= .60Sy = .80 Σx2 = 13Σy2 = 5Σxy = 6 折半法的計算過程

Σx= 7X= 1.4Sx = .80 Σy= 3Y= .60Sy = .80 Σx2 = 13Σy2 = 5Σxy = 6 r r hh xx √ √ 折半法的計算過程（續） NΣxy－ΣxΣy = [NΣx2－ (Σx)2] [NΣy2－(Σy)2] 5 (6) － (7) (3) = .56 = [5 (13) － (7)2] [5 (5) －(3)2] 2 (.56) 1 + .56 = .72 =

r xx Sd 2 盧隆的折半信度 = 1 －（公式八） Sx 2 rxx ：測驗的信度 Sd ：兩半測驗分數之差的變異量 Sx ：測驗總分的變異量 2 2

福氏折半信度的計算方法

r r xx xx Sd So Sx Sx 2 2 2 2 福氏折半信度的計算方法 +Se 2 = 2 (1 －　　　　) (.80) + (.80) 2 2 = 2 (1 －　　　　 ) = .72 (1.414) 2 (.75) 2 = 1 － = 1 － = .72 (1.414) 2

庫李方法 • 主要是依據受試者對所有題目的反應，分析題目間的一致性，以確定測驗中的題目是否測量相同的性質。 • 影響題目間的一致性的兩種誤差： • 內容取樣（content sampling） • 取樣內容的異質性（heterogeneity） • 內容同質性：測驗中的所有題目均測量同樣的特質。 • 內容異質性：測驗中的題目所測量的特質超過兩種以上。

r KR20 庫李方法公式 n n － 1 Σpq Sx = ( 1 － ) 公式九 2 rKR20 ：測驗的信度 n ：測驗的題數 p ：答對某一題的人數比率 q ：答錯某一題的人數比率(q=1-p) Σpq：全部題目答對與答錯的百分比的總乘績 Sx ：測驗總分的變異量 2

庫李方法的計算方法

r KR20 庫李方法的計算方法（續） n n － 1 Σpq Sx = (1－ ) 2 .80 1.414 4 4－1 (1－ ) = = .80 2

庫李方法對測驗題目基本假定 • 題目的記分屬於非對即錯 • 題目沒有明顯的受到速度的影響 • 題目是同質性的

α Cronbach的α係數 • 測驗的記分是屬於多重記分的方式。 • 如態度量表中，答「非常同意」5分，「同意」4分，「無意見」3分，「不同意」2分，「非常不同意」1分。 • 此種記分方式的測驗必須採用克朗巴賀（Cronbach）的α係數。公式十 α：估計的信度 n ：題數 Si : 每一題目的分數變異量 Sx : 測驗總分的變異量 n n － 1 2 ΣSi Sx = ( 1 － ) 2 2 2

α係數的計算過程

α α係數的計算過程 ΣSi = (1.33)2 + (1.10)2 + (1.36)2 + (1.47)2 = 6.99 2 n n － 1 ΣSi Sx 6.99 5 2 4 4－1 = (1－ ) (1－ ) = = .96 2 2

評分者方法 • 評分者信度（scorer reliability）：採用不同評分者評閱測驗卷，而估計評分的一致性。 • 評分會受評分者主觀判斷的影響，而導致評分的誤差的測驗，須考慮其評分者信度。

評分者信度的計算過程 6ΣD2 N (N2 – 1) 6 (2) 5 (52 – 1) ρ = 1 - = 1 - = .90

信度類型與測量誤差 (測驗情境的影響) 重測信度 • 誤差來源：時間取樣 • 解答的主要問題： • 相關內容樣本所得分數受到不同測驗的影響如何？ • 在不同測量的時間所得分數的穩定性如何？

信度類型與測量誤差 (測驗情境的影響) 複本信度 • 誤差來源： • 時間取樣 • 內容取樣 • 解答的主要問題： • 不管使用的複本測驗或實施的情境怎樣，測驗的一致性如何？ • 在不同測量的時間所得分數的穩定性如何？

信度類型與測量誤差 (不同內容取樣的影響) • 複本信度（同時實施） • 折半信度 • 庫李信度 • 庫李信度21號公式 • α係數霍意特信度

複本信度（同時實施） • 誤差來源：內容取樣 • 解答問題： • 測驗分數在相同情境下，是否受不同內容取樣的影響？ • 兩份仔細配合的複本測驗是否相等、平行或可交互使用？

折半信度 • 誤差來源：內容取樣 • 解答問題： • 測驗分數在相同情境下，是否受不同內容取樣的影響？ • 複本形式的信度係數為多少？

庫李信度 • 誤差來源： • 內容取樣 • 內容異質 • 解答問題： • 測驗分數在相同情境下，是否受不同內容取樣的影響？ • 測驗的同質性如何？ • 每一個題目的反應一致性如何？

庫李信度21號公式 • 誤差來源： • 內容取樣 • 內容異質 • 解答問題： • 測驗分數在相同情境下，是否受不同內容取樣的影響？

α係數霍意特信度 • 誤差來源： • 內容取樣 • 內容異質 • 解答問題： • 測驗分數在相同情境下，是否受不同內容取樣的影響？

解答「不同評分者的影響」的信度類型 • 評分者信度 • 誤差來源：評分者的誤差 • 解答問題： • 如果使用不同的評分者，分數差異的程度如何？ • 測驗的客觀程度如何？ • 不同評分者所得的結構是否可替換？

測驗缺乏信度的原因 • 有缺點的題目 • 太難的題目 • 太容易的題目 • 太少的題目數 • 不類似的題目 • 應答者的特徵 • 工具施測時有瑕疵 • 計分過程有缺點

有缺點的題目 • 模稜兩可 • 受試者在上頭所做的反應，很難說具有可信性 • 題目有瑕疵

太難的題目 • 受試者可能猜測作答。

太容易的題目 • 無從了解受試者真正了解的是什麼，問了等於沒問。

測驗的信度

測驗的信度

Presentation Transcript