1 / 77

測驗的效度

測驗的效度. 教育測驗與評量 胡悅倫教授. 第一節、效度的意義與原理. 效度的意義 效度的特性. 效度的意義. 效度( validity ):測驗分數的正確性 一個測驗能夠測量它所想要測量的特質的程度。 一個測驗在使用目的上的有效性,測驗能夠達到某種目的的程度。. 效度的特性. 效度無法直接測量。 效度的判斷,主要依據測驗分數的使用目的,或測驗結果的解釋。 效度是程度上的差別,而非全有或全無的問題。. 效度的特性(續). 效度在使用的目的和情境方面具有特殊性,故不宜視為普遍性的特質。 對某一測驗目的而言,此測驗有很高的效度,但對另一目的而言,則可能效度很低。

cheryl
Download Presentation

測驗的效度

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 測驗的效度 教育測驗與評量 胡悅倫教授

  2. 第一節、效度的意義與原理 • 效度的意義 • 效度的特性

  3. 效度的意義 • 效度(validity):測驗分數的正確性 • 一個測驗能夠測量它所想要測量的特質的程度。 • 一個測驗在使用目的上的有效性,測驗能夠達到某種目的的程度。

  4. 效度的特性 • 效度無法直接測量。 • 效度的判斷,主要依據測驗分數的使用目的,或測驗結果的解釋。 • 效度是程度上的差別,而非全有或全無的問題。

  5. 效度的特性(續) • 效度在使用的目的和情境方面具有特殊性,故不宜視為普遍性的特質。 • 對某一測驗目的而言,此測驗有很高的效度,但對另一目的而言,則可能效度很低。 • 例:手指靈巧測驗 • 預測裝配手錶的能力:高效度 • 預測銷售手錶的能力:沒有什麼效度

  6. 第二節、效度的種類 • 內容效度 • 效標關聯效度 • 構念效度

  7. 內容效度的意義(content validity) • 內容關聯效度(content-related validity) • 測驗內容的代表性或取樣的適切性(adequacy) • 老師給學生做數學成就測驗: • 教學所欲達成的目標 • 教材的重要內容 有內容效度

  8. 如何知道一個測驗具有內容效度 • 教學的目標? • 教材內容所強調的知識、概念及技能? • 測驗的所有題目符合教學目標和教材內容? • 足夠的題目來代表這兩個方面?

  9. 內容效度所關心的兩個重要層面 • 教材的主題或教材的範圍 • 學生的行為改變

  10. 判斷內容效度的方法 • 確定內容關效效度的主要方法:邏輯的分析法 • 仔細判斷每個題目是否符合教材內容與教學目標 • 測驗具有良好的內容效度: • 全體題目很能代表教材內容的樣本,及所預期的行為改變 • 沒有其他無關因素(如閱讀能力)的影響

  11. 判斷內容效度的方法(續) • 邏輯的分析與合理的判斷:合理或邏輯的效度(rational or logical validity)

  12. 測驗內容是否適切、有代表性? • 判斷方法 • 題目的適切性 • 題目是否和所欲測量的內容或能力具有關聯性 • 測驗內容的代表性 • 題目是否能涵蓋所欲測量的內容領域(content domain) • 涵蓋範圍愈周延,代表性愈大;反之,則小

  13. 測驗內容的適切性、代表性:例子 • 見第84頁圖3-1 • 說明:F圖所涵蓋的內容,多數超出內容領域之外,故內容有嚴重的偏差,代表性最有問題。

  14. 內容效度的判斷程序 • 詳細說明所欲測量的內容領域(或主題) • 確認測驗中每一試題所測量的內容領域(或主題) • 比較測驗結構和內容領域結構的符合程序

  15. 雙向細目表(two-way specification table) • 雙向細目表的設計方法: • 列出教材內容的主題及所預期的行為改變 • 判斷每一個主題的相對重要性 • 建立雙向細目表 • 依據雙向細目表編寫符合主題及行為改變的題目

  16. 表3-1 數學成就測驗雙向細目表

  17. 雙向細目表(續) • 如課程專家參與測驗的編制,其人數與專業資格應加以敘述。 • 如果他們做為題目分類的評斷者,分類的指導語及相互間的同意程度,亦應加以報告。

  18. 內容效度的判斷(續) • 複份的編制(duplicate-construction):分析內容效度。 • 此方法類似複本信度。 • 根據編製前所確立的測驗內容之選擇原則,分由兩組編製人員擬兩套試題,如果兩份內容大致符合,即表示內容適當。 • 此信度關心的是:我們有多少信心能夠從測驗上的得分推論到其他相等測驗的分數。

  19. 複份的編制(續) • 內容效度:從一個獨特的分數能夠推論到較大教材內容的適切性。 • 同樣內容編製兩份測驗所求得之相關,可提供複本信度和內容效度。

  20. 評估內容效度的量化方法 公式3.6 Ne – N/2 N/2 CVR = CVR:內容效度比率 N :評審員總人數 Ne :評為很重要的人數

  21. 例子 • 高中國文科成就測驗的題數:30 • 擔任評審員的專家或教師數:20 • 依據下列的問題判斷每一題目的重要性: • 您認為此題對測量高中國文科學習的知識或技能的重要性如何? • 很重要 • 有用但不必要 • 沒有必要

  22. 18 – 20/2 20/2 CVR = = .80 例子(續) • 若20名評審中有18名認為「很重要」,則內容效度比率為: • .80超過表3-2中評審委員20人的.42最低值,故該題屬於內容效度良好的題目(第88頁) 。

  23. 內容效度的應用 • 內容效度最為適用於成就測驗的效度考驗,尤其是標準參照測驗,因為標準參照測驗的成績是依據內容的意義,加以解釋。

  24. 內容效度對成就測驗較為適合的原因 • 測驗是否涵蓋特定的技能與知識的有代表性樣本? • 測驗成績是否不受無關因素的影響? • 成就測驗具有獨特的教材內容和學習經驗,測驗內容從中選擇出來,較易從事邏輯的分析和合理的判斷。

  25. 內容效度的應用(續) • 不適用於性向測驗與人格測驗 • 上述兩種測驗的效度考驗,需要實證的證明 • 內容關聯效度常易於和表面效度(face validity)混為一談 • 表面效度:缺乏系統的邏輯分析

  26. 效標關聯效度的意義(criterion-related validity) • 以經驗性的方法,研究測驗分數與一些外在效標間的關係。故又稱: • 經驗效度(empirical validity) • 統計效度(statistical validity)

  27. 效標關聯效度的意義(續) • 指測驗分數和外在效標間的相關 • 相關愈高,效標關聯效度愈高,反之,則不然。 • 效標關聯效度愈高,測驗分數愈能有效預測外在效標。 • 外在效標:測驗所要預測的某些行為或量數

  28. 考驗效標關聯效度的步驟 • 確定並收集可靠的適當效標 • 建立測驗分數與實施測驗同時可取得的外在效標(或實施測驗後一段時間所取得的外在效標)之間的相關

  29. 效標關聯效度的種類 • 同時效度 • 預測效度

  30. 同時效度(concurrent validity) • 指測驗分數與實施測驗同一個時間所取得的效標之間的相關。 • 旨在使用測驗分數估計個人在效標方面的目前實際表現。 • 同時效度的效標:易於考驗 • 做測驗的同一時間取得,不必等待

  31. 同時效度的應用 • 用建立了同時效度的測驗(以學生平日的技能為效標的學習技能測驗)來評估學生的學習技能,可迅速而簡易的獲得所需的資料。

  32. 預測效度(predictive validity) • 指測驗分數與實施測驗後一段時間所取得的效標之間的相關。 • 旨在使用測驗分數預測個人在效標方面的未來表現。 • 例:職業測驗的預測效度 • 工作一段時間後,收集其工作成績資料做為效標,測驗分數與其工作成績的相關,即為此測驗的預測效度。

  33. 預測效度的應用 • 用於職業或教育上的人員選擇、分類和安置的測驗 • 僱用工作應徵者 • 選擇學生入大學 • 分派軍人到不同的職業訓練計劃 • 鑑定精神異常者接受治療 • 甄別可能產生情緒困擾者 • 性向測驗、人格測驗、成就測驗 • 上述測驗分數,常被用來預測未來學習的成就或工作的成績

  34. 同時效度和預測效度的差異 • 效標取得的時間不同 • 測驗的目的不同 • 同時效度:評估目前的情形 • 預測效度:預測未來的行為 • 例: • 張三是否有精神病? • 同時效度 • 張三是否可能罹患精神病? • 預測效度

  35. 效標的特性 • 適切性 • 可靠性 • 客觀性 • 可用性

  36. 適切性(relevance) • 效標資料能反映出測驗所欲測量的重要特質。 • 判斷效標適切性的程度: • 沒有經驗的證據 • 依賴價值的判斷 • 如同內容效度的評估須由專家做判斷一樣 • 例子:機械性向測驗 • 效標:實際的工作成績

  37. 可靠性(reliability) • 信度 • 資料本身需具有可靠性 • 再可靠的測驗也不能夠預測不可靠的效標

  38. 客觀性(freedom from bias) • 避免偏差和效標混淆 • 主觀評量產生的偏差: • 教師或管理員的評分,如傾向於偏愛男性而輕視女性

  39. 可用性(availability) • 效標資料的取得是否容易和方便 • 等待時間過長,使得效標不具可用性

  40. 效標的種類 • 學業成就 • 特殊化的訓練成績 • 實際工作成績 • 對照團體 • 精神病學的診斷 • 評定成績 • 先前的有效測驗

  41. 學業成就 • 最常做為智力測驗的效標。 • 智力測驗=學業性向測驗 • 以學業成就做為效標,包括: • 學校成績 • 成就測驗分數 • 升級與畢業的成績 • 特殊榮譽 • 教師對智力評定成績

  42. 特殊化的訓練成績 • 各種專門學校的訓練成績,常用作性向測驗的效標。如: • 性向測驗:商業學校的打字、簿記、會計等 • 專業性向測驗:工業、農業、醫學、護理、家事、水產等 • 特殊計畫的訓練成績: • 空軍飛行員選擇測驗

  43. 特殊化的訓練成績(續) • 特殊計畫的訓練成績和專門學校的訓練成績: • 均屬於中間效標 • 僅可代表工作成功的部分效標 • 終極效標才是理想的效標,它可代表個人專業生涯成功的評價。例如,醫學性向測驗的終極效標是實施行醫的成就。 • 但終極效標難取得,所以常用中間效標取代。

  44. 實際工作成績 • 最令人滿意的效標

  45. 對照團體(contrasted groups) • 例:音樂性向測驗的效度 • 依據音樂學校學生和普通中學學生在測驗上的得分

  46. 精神病學的診斷(psychiatric diagnosis) • 可做為人格測驗題目的選擇及效度考驗的依據。 • 若是依據長期的觀察和詳細的個案歷史而做的精神病學診斷,則可做為人格測驗的適當效標。

  47. 評定成績(ratings) • 依據教師、督學、輔導員、同學、朋友或同事對受試者所評定的分數,不論是人格適應、學習成就或工作成績,均可做為效標資料。 • 應用在各種測驗的效度考驗上。

  48. 先前的有效測驗(previously available tests) • 可做為新編測驗的效標 • 例:比西量表可為新編智力測驗的效標

  49. 構念效度的意義(construct validity) • 指測驗能夠測量到理論上的構念或特質的程度 • 指測驗分數能夠依據某種心理學的理論構念加以解釋的程度 • 凡是根據心理學的構念,對測驗分數的意義所做的分析和解釋

  50. 構念效度的意義(續) • 構念(construct) • 心理學上的一種理論構想或特質 • 觀察不到的 • 心理學家假設它是存在的,以便能解釋一些個人的行為。

More Related