810 likes | 1.14k Views
測驗的效度. 教育測驗與評量 胡悅倫教授. 第一節、效度的意義與原理. 效度的意義 效度的特性. 效度的意義. 效度( validity ):測驗分數的正確性 一個測驗能夠測量它所想要測量的特質的程度。 一個測驗在使用目的上的有效性,測驗能夠達到某種目的的程度。. 效度的特性. 效度無法直接測量。 效度的判斷,主要依據測驗分數的使用目的,或測驗結果的解釋。 效度是程度上的差別,而非全有或全無的問題。. 效度的特性(續). 效度在使用的目的和情境方面具有特殊性,故不宜視為普遍性的特質。 對某一測驗目的而言,此測驗有很高的效度,但對另一目的而言,則可能效度很低。
E N D
測驗的效度 教育測驗與評量 胡悅倫教授
第一節、效度的意義與原理 • 效度的意義 • 效度的特性
效度的意義 • 效度(validity):測驗分數的正確性 • 一個測驗能夠測量它所想要測量的特質的程度。 • 一個測驗在使用目的上的有效性,測驗能夠達到某種目的的程度。
效度的特性 • 效度無法直接測量。 • 效度的判斷,主要依據測驗分數的使用目的,或測驗結果的解釋。 • 效度是程度上的差別,而非全有或全無的問題。
效度的特性(續) • 效度在使用的目的和情境方面具有特殊性,故不宜視為普遍性的特質。 • 對某一測驗目的而言,此測驗有很高的效度,但對另一目的而言,則可能效度很低。 • 例:手指靈巧測驗 • 預測裝配手錶的能力:高效度 • 預測銷售手錶的能力:沒有什麼效度
第二節、效度的種類 • 內容效度 • 效標關聯效度 • 構念效度
內容效度的意義(content validity) • 內容關聯效度(content-related validity) • 測驗內容的代表性或取樣的適切性(adequacy) • 老師給學生做數學成就測驗: • 教學所欲達成的目標 • 教材的重要內容 有內容效度
如何知道一個測驗具有內容效度 • 教學的目標? • 教材內容所強調的知識、概念及技能? • 測驗的所有題目符合教學目標和教材內容? • 足夠的題目來代表這兩個方面?
內容效度所關心的兩個重要層面 • 教材的主題或教材的範圍 • 學生的行為改變
判斷內容效度的方法 • 確定內容關效效度的主要方法:邏輯的分析法 • 仔細判斷每個題目是否符合教材內容與教學目標 • 測驗具有良好的內容效度: • 全體題目很能代表教材內容的樣本,及所預期的行為改變 • 沒有其他無關因素(如閱讀能力)的影響
判斷內容效度的方法(續) • 邏輯的分析與合理的判斷:合理或邏輯的效度(rational or logical validity)
測驗內容是否適切、有代表性? • 判斷方法 • 題目的適切性 • 題目是否和所欲測量的內容或能力具有關聯性 • 測驗內容的代表性 • 題目是否能涵蓋所欲測量的內容領域(content domain) • 涵蓋範圍愈周延,代表性愈大;反之,則小
測驗內容的適切性、代表性:例子 • 見第84頁圖3-1 • 說明:F圖所涵蓋的內容,多數超出內容領域之外,故內容有嚴重的偏差,代表性最有問題。
內容效度的判斷程序 • 詳細說明所欲測量的內容領域(或主題) • 確認測驗中每一試題所測量的內容領域(或主題) • 比較測驗結構和內容領域結構的符合程序
雙向細目表(two-way specification table) • 雙向細目表的設計方法: • 列出教材內容的主題及所預期的行為改變 • 判斷每一個主題的相對重要性 • 建立雙向細目表 • 依據雙向細目表編寫符合主題及行為改變的題目
雙向細目表(續) • 如課程專家參與測驗的編制,其人數與專業資格應加以敘述。 • 如果他們做為題目分類的評斷者,分類的指導語及相互間的同意程度,亦應加以報告。
內容效度的判斷(續) • 複份的編制(duplicate-construction):分析內容效度。 • 此方法類似複本信度。 • 根據編製前所確立的測驗內容之選擇原則,分由兩組編製人員擬兩套試題,如果兩份內容大致符合,即表示內容適當。 • 此信度關心的是:我們有多少信心能夠從測驗上的得分推論到其他相等測驗的分數。
複份的編制(續) • 內容效度:從一個獨特的分數能夠推論到較大教材內容的適切性。 • 同樣內容編製兩份測驗所求得之相關,可提供複本信度和內容效度。
評估內容效度的量化方法 公式3.6 Ne – N/2 N/2 CVR = CVR:內容效度比率 N :評審員總人數 Ne :評為很重要的人數
例子 • 高中國文科成就測驗的題數:30 • 擔任評審員的專家或教師數:20 • 依據下列的問題判斷每一題目的重要性: • 您認為此題對測量高中國文科學習的知識或技能的重要性如何? • 很重要 • 有用但不必要 • 沒有必要
18 – 20/2 20/2 CVR = = .80 例子(續) • 若20名評審中有18名認為「很重要」,則內容效度比率為: • .80超過表3-2中評審委員20人的.42最低值,故該題屬於內容效度良好的題目(第88頁) 。
內容效度的應用 • 內容效度最為適用於成就測驗的效度考驗,尤其是標準參照測驗,因為標準參照測驗的成績是依據內容的意義,加以解釋。
內容效度對成就測驗較為適合的原因 • 測驗是否涵蓋特定的技能與知識的有代表性樣本? • 測驗成績是否不受無關因素的影響? • 成就測驗具有獨特的教材內容和學習經驗,測驗內容從中選擇出來,較易從事邏輯的分析和合理的判斷。
內容效度的應用(續) • 不適用於性向測驗與人格測驗 • 上述兩種測驗的效度考驗,需要實證的證明 • 內容關聯效度常易於和表面效度(face validity)混為一談 • 表面效度:缺乏系統的邏輯分析
效標關聯效度的意義(criterion-related validity) • 以經驗性的方法,研究測驗分數與一些外在效標間的關係。故又稱: • 經驗效度(empirical validity) • 統計效度(statistical validity)
效標關聯效度的意義(續) • 指測驗分數和外在效標間的相關 • 相關愈高,效標關聯效度愈高,反之,則不然。 • 效標關聯效度愈高,測驗分數愈能有效預測外在效標。 • 外在效標:測驗所要預測的某些行為或量數
考驗效標關聯效度的步驟 • 確定並收集可靠的適當效標 • 建立測驗分數與實施測驗同時可取得的外在效標(或實施測驗後一段時間所取得的外在效標)之間的相關
效標關聯效度的種類 • 同時效度 • 預測效度
同時效度(concurrent validity) • 指測驗分數與實施測驗同一個時間所取得的效標之間的相關。 • 旨在使用測驗分數估計個人在效標方面的目前實際表現。 • 同時效度的效標:易於考驗 • 做測驗的同一時間取得,不必等待
同時效度的應用 • 用建立了同時效度的測驗(以學生平日的技能為效標的學習技能測驗)來評估學生的學習技能,可迅速而簡易的獲得所需的資料。
預測效度(predictive validity) • 指測驗分數與實施測驗後一段時間所取得的效標之間的相關。 • 旨在使用測驗分數預測個人在效標方面的未來表現。 • 例:職業測驗的預測效度 • 工作一段時間後,收集其工作成績資料做為效標,測驗分數與其工作成績的相關,即為此測驗的預測效度。
預測效度的應用 • 用於職業或教育上的人員選擇、分類和安置的測驗 • 僱用工作應徵者 • 選擇學生入大學 • 分派軍人到不同的職業訓練計劃 • 鑑定精神異常者接受治療 • 甄別可能產生情緒困擾者 • 性向測驗、人格測驗、成就測驗 • 上述測驗分數,常被用來預測未來學習的成就或工作的成績
同時效度和預測效度的差異 • 效標取得的時間不同 • 測驗的目的不同 • 同時效度:評估目前的情形 • 預測效度:預測未來的行為 • 例: • 張三是否有精神病? • 同時效度 • 張三是否可能罹患精神病? • 預測效度
效標的特性 • 適切性 • 可靠性 • 客觀性 • 可用性
適切性(relevance) • 效標資料能反映出測驗所欲測量的重要特質。 • 判斷效標適切性的程度: • 沒有經驗的證據 • 依賴價值的判斷 • 如同內容效度的評估須由專家做判斷一樣 • 例子:機械性向測驗 • 效標:實際的工作成績
可靠性(reliability) • 信度 • 資料本身需具有可靠性 • 再可靠的測驗也不能夠預測不可靠的效標
客觀性(freedom from bias) • 避免偏差和效標混淆 • 主觀評量產生的偏差: • 教師或管理員的評分,如傾向於偏愛男性而輕視女性
可用性(availability) • 效標資料的取得是否容易和方便 • 等待時間過長,使得效標不具可用性
效標的種類 • 學業成就 • 特殊化的訓練成績 • 實際工作成績 • 對照團體 • 精神病學的診斷 • 評定成績 • 先前的有效測驗
學業成就 • 最常做為智力測驗的效標。 • 智力測驗=學業性向測驗 • 以學業成就做為效標,包括: • 學校成績 • 成就測驗分數 • 升級與畢業的成績 • 特殊榮譽 • 教師對智力評定成績
特殊化的訓練成績 • 各種專門學校的訓練成績,常用作性向測驗的效標。如: • 性向測驗:商業學校的打字、簿記、會計等 • 專業性向測驗:工業、農業、醫學、護理、家事、水產等 • 特殊計畫的訓練成績: • 空軍飛行員選擇測驗
特殊化的訓練成績(續) • 特殊計畫的訓練成績和專門學校的訓練成績: • 均屬於中間效標 • 僅可代表工作成功的部分效標 • 終極效標才是理想的效標,它可代表個人專業生涯成功的評價。例如,醫學性向測驗的終極效標是實施行醫的成就。 • 但終極效標難取得,所以常用中間效標取代。
實際工作成績 • 最令人滿意的效標
對照團體(contrasted groups) • 例:音樂性向測驗的效度 • 依據音樂學校學生和普通中學學生在測驗上的得分
精神病學的診斷(psychiatric diagnosis) • 可做為人格測驗題目的選擇及效度考驗的依據。 • 若是依據長期的觀察和詳細的個案歷史而做的精神病學診斷,則可做為人格測驗的適當效標。
評定成績(ratings) • 依據教師、督學、輔導員、同學、朋友或同事對受試者所評定的分數,不論是人格適應、學習成就或工作成績,均可做為效標資料。 • 應用在各種測驗的效度考驗上。
先前的有效測驗(previously available tests) • 可做為新編測驗的效標 • 例:比西量表可為新編智力測驗的效標
構念效度的意義(construct validity) • 指測驗能夠測量到理論上的構念或特質的程度 • 指測驗分數能夠依據某種心理學的理論構念加以解釋的程度 • 凡是根據心理學的構念,對測驗分數的意義所做的分析和解釋
構念效度的意義(續) • 構念(construct) • 心理學上的一種理論構想或特質 • 觀察不到的 • 心理學家假設它是存在的,以便能解釋一些個人的行為。