測驗的效度

測驗的效度 教育測驗與評量胡悅倫教授

第一節、效度的意義與原理 • 效度的意義 • 效度的特性

效度的意義 • 效度（validity）：測驗分數的正確性 • 一個測驗能夠測量它所想要測量的特質的程度。 • 一個測驗在使用目的上的有效性，測驗能夠達到某種目的的程度。

效度的特性 • 效度無法直接測量。 • 效度的判斷，主要依據測驗分數的使用目的，或測驗結果的解釋。 • 效度是程度上的差別，而非全有或全無的問題。

效度的特性（續） • 效度在使用的目的和情境方面具有特殊性，故不宜視為普遍性的特質。 • 對某一測驗目的而言，此測驗有很高的效度，但對另一目的而言，則可能效度很低。 • 例：手指靈巧測驗 • 預測裝配手錶的能力：高效度 • 預測銷售手錶的能力：沒有什麼效度

第二節、效度的種類 • 內容效度 • 效標關聯效度 • 構念效度

內容效度的意義（content validity） • 內容關聯效度（content-related validity） • 測驗內容的代表性或取樣的適切性（adequacy） • 老師給學生做數學成就測驗： • 教學所欲達成的目標 • 教材的重要內容有內容效度

如何知道一個測驗具有內容效度 • 教學的目標？ • 教材內容所強調的知識、概念及技能？ • 測驗的所有題目符合教學目標和教材內容？ • 足夠的題目來代表這兩個方面？

內容效度所關心的兩個重要層面 • 教材的主題或教材的範圍 • 學生的行為改變

判斷內容效度的方法 • 確定內容關效效度的主要方法：邏輯的分析法 • 仔細判斷每個題目是否符合教材內容與教學目標 • 測驗具有良好的內容效度： • 全體題目很能代表教材內容的樣本，及所預期的行為改變 • 沒有其他無關因素（如閱讀能力）的影響

判斷內容效度的方法（續） • 邏輯的分析與合理的判斷：合理或邏輯的效度（rational or logical validity）

測驗內容是否適切、有代表性？ • 判斷方法 • 題目的適切性 • 題目是否和所欲測量的內容或能力具有關聯性 • 測驗內容的代表性 • 題目是否能涵蓋所欲測量的內容領域（content domain） • 涵蓋範圍愈周延，代表性愈大；反之，則小

測驗內容的適切性、代表性：例子 • 見第84頁圖3-1 • 說明：F圖所涵蓋的內容，多數超出內容領域之外，故內容有嚴重的偏差，代表性最有問題。

內容效度的判斷程序 • 詳細說明所欲測量的內容領域（或主題） • 確認測驗中每一試題所測量的內容領域（或主題） • 比較測驗結構和內容領域結構的符合程序

雙向細目表（two-way specification table） • 雙向細目表的設計方法： • 列出教材內容的主題及所預期的行為改變 • 判斷每一個主題的相對重要性 • 建立雙向細目表 • 依據雙向細目表編寫符合主題及行為改變的題目

表3-1　數學成就測驗雙向細目表

雙向細目表（續） • 如課程專家參與測驗的編制，其人數與專業資格應加以敘述。 • 如果他們做為題目分類的評斷者，分類的指導語及相互間的同意程度，亦應加以報告。

內容效度的判斷（續） • 複份的編制（duplicate-construction）：分析內容效度。 • 此方法類似複本信度。 • 根據編製前所確立的測驗內容之選擇原則，分由兩組編製人員擬兩套試題，如果兩份內容大致符合，即表示內容適當。 • 此信度關心的是：我們有多少信心能夠從測驗上的得分推論到其他相等測驗的分數。

複份的編制（續） • 內容效度：從一個獨特的分數能夠推論到較大教材內容的適切性。 • 同樣內容編製兩份測驗所求得之相關，可提供複本信度和內容效度。

評估內容效度的量化方法 公式3.6 Ne – N/2 N/2 CVR = CVR：內容效度比率 N ：評審員總人數 Ne ：評為很重要的人數

例子 • 高中國文科成就測驗的題數：30 • 擔任評審員的專家或教師數：20 • 依據下列的問題判斷每一題目的重要性： • 您認為此題對測量高中國文科學習的知識或技能的重要性如何? • 很重要 • 有用但不必要 • 沒有必要

18 – 20/2 20/2 CVR = = .80 例子（續） • 若20名評審中有18名認為「很重要」，則內容效度比率為： • .80超過表3-2中評審委員20人的.42最低值，故該題屬於內容效度良好的題目（第88頁）。

內容效度的應用 • 內容效度最為適用於成就測驗的效度考驗，尤其是標準參照測驗，因為標準參照測驗的成績是依據內容的意義，加以解釋。

內容效度對成就測驗較為適合的原因 • 測驗是否涵蓋特定的技能與知識的有代表性樣本？ • 測驗成績是否不受無關因素的影響？ • 成就測驗具有獨特的教材內容和學習經驗，測驗內容從中選擇出來，較易從事邏輯的分析和合理的判斷。

內容效度的應用（續） • 不適用於性向測驗與人格測驗 • 上述兩種測驗的效度考驗，需要實證的證明 • 內容關聯效度常易於和表面效度（face validity）混為一談 • 表面效度：缺乏系統的邏輯分析

效標關聯效度的意義（criterion-related validity） • 以經驗性的方法，研究測驗分數與一些外在效標間的關係。故又稱: • 經驗效度（empirical validity） • 統計效度（statistical validity）

效標關聯效度的意義（續） • 指測驗分數和外在效標間的相關 • 相關愈高，效標關聯效度愈高，反之，則不然。 • 效標關聯效度愈高，測驗分數愈能有效預測外在效標。 • 外在效標：測驗所要預測的某些行為或量數

考驗效標關聯效度的步驟 • 確定並收集可靠的適當效標 • 建立測驗分數與實施測驗同時可取得的外在效標（或實施測驗後一段時間所取得的外在效標）之間的相關

效標關聯效度的種類 • 同時效度 • 預測效度

同時效度（concurrent validity） • 指測驗分數與實施測驗同一個時間所取得的效標之間的相關。 • 旨在使用測驗分數估計個人在效標方面的目前實際表現。 • 同時效度的效標：易於考驗 • 做測驗的同一時間取得，不必等待

同時效度的應用 • 用建立了同時效度的測驗（以學生平日的技能為效標的學習技能測驗）來評估學生的學習技能，可迅速而簡易的獲得所需的資料。

預測效度（predictive validity） • 指測驗分數與實施測驗後一段時間所取得的效標之間的相關。 • 旨在使用測驗分數預測個人在效標方面的未來表現。 • 例：職業測驗的預測效度 • 工作一段時間後，收集其工作成績資料做為效標，測驗分數與其工作成績的相關，即為此測驗的預測效度。

預測效度的應用 • 用於職業或教育上的人員選擇、分類和安置的測驗 • 僱用工作應徵者 • 選擇學生入大學 • 分派軍人到不同的職業訓練計劃 • 鑑定精神異常者接受治療 • 甄別可能產生情緒困擾者 • 性向測驗、人格測驗、成就測驗 • 上述測驗分數，常被用來預測未來學習的成就或工作的成績

同時效度和預測效度的差異 • 效標取得的時間不同 • 測驗的目的不同 • 同時效度：評估目前的情形 • 預測效度：預測未來的行為 • 例： • 張三是否有精神病？ • 同時效度 • 張三是否可能罹患精神病？ • 預測效度

效標的特性 • 適切性 • 可靠性 • 客觀性 • 可用性

適切性（relevance） • 效標資料能反映出測驗所欲測量的重要特質。 • 判斷效標適切性的程度： • 沒有經驗的證據 • 依賴價值的判斷 • 如同內容效度的評估須由專家做判斷一樣 • 例子：機械性向測驗 • 效標：實際的工作成績

可靠性（reliability） • 信度 • 資料本身需具有可靠性 • 再可靠的測驗也不能夠預測不可靠的效標

客觀性（freedom from bias） • 避免偏差和效標混淆 • 主觀評量產生的偏差： • 教師或管理員的評分，如傾向於偏愛男性而輕視女性

可用性（availability） • 效標資料的取得是否容易和方便 • 等待時間過長，使得效標不具可用性

效標的種類 • 學業成就 • 特殊化的訓練成績 • 實際工作成績 • 對照團體 • 精神病學的診斷 • 評定成績 • 先前的有效測驗

學業成就 • 最常做為智力測驗的效標。 • 智力測驗＝學業性向測驗 • 以學業成就做為效標，包括： • 學校成績 • 成就測驗分數 • 升級與畢業的成績 • 特殊榮譽 • 教師對智力評定成績

特殊化的訓練成績 • 各種專門學校的訓練成績，常用作性向測驗的效標。如： • 性向測驗：商業學校的打字、簿記、會計等 • 專業性向測驗：工業、農業、醫學、護理、家事、水產等 • 特殊計畫的訓練成績： • 空軍飛行員選擇測驗

特殊化的訓練成績（續） • 特殊計畫的訓練成績和專門學校的訓練成績： • 均屬於中間效標 • 僅可代表工作成功的部分效標 • 終極效標才是理想的效標，它可代表個人專業生涯成功的評價。例如，醫學性向測驗的終極效標是實施行醫的成就。 • 但終極效標難取得，所以常用中間效標取代。

實際工作成績 • 最令人滿意的效標

對照團體（contrasted groups） • 例：音樂性向測驗的效度 • 依據音樂學校學生和普通中學學生在測驗上的得分

精神病學的診斷（psychiatric diagnosis） • 可做為人格測驗題目的選擇及效度考驗的依據。 • 若是依據長期的觀察和詳細的個案歷史而做的精神病學診斷，則可做為人格測驗的適當效標。

評定成績（ratings） • 依據教師、督學、輔導員、同學、朋友或同事對受試者所評定的分數，不論是人格適應、學習成就或工作成績，均可做為效標資料。 • 應用在各種測驗的效度考驗上。

先前的有效測驗（previously available tests） • 可做為新編測驗的效標 • 例：比西量表可為新編智力測驗的效標

構念效度的意義（construct validity） • 指測驗能夠測量到理論上的構念或特質的程度 • 指測驗分數能夠依據某種心理學的理論構念加以解釋的程度 • 凡是根據心理學的構念，對測驗分數的意義所做的分析和解釋

構念效度的意義（續） • 構念（construct） • 心理學上的一種理論構想或特質 • 觀察不到的 • 心理學家假設它是存在的，以便能解釋一些個人的行為。

測驗的效度

測驗的效度

Presentation Transcript