450 likes | 584 Views
测量的效度. 案例一. 美国杜克能源公司某蒸气站被 12 名黑人雇工告上了法庭,缘由是该公司把他们都当勤杂工使用,每天的任务就是扫地和清洁,他们原本指望能被提升到像运煤工这样层次更高的岗位上,但公司说他们的智力测验分数不够,而该公司的 14 个黑人员工中有 13 个做勤杂工,诉讼的理由是智力测验有种族歧视。而公司说没有任何歧视,岗位安排完全根据测验结果来定,没有歧视黑人。 法庭要求公司提供测验对职位胜任的预测力 。. 案例二.
E N D
案例一 美国杜克能源公司某蒸气站被12名黑人雇工告上了法庭,缘由是该公司把他们都当勤杂工使用,每天的任务就是扫地和清洁,他们原本指望能被提升到像运煤工这样层次更高的岗位上,但公司说他们的智力测验分数不够,而该公司的14个黑人员工中有13个做勤杂工,诉讼的理由是智力测验有种族歧视。而公司说没有任何歧视,岗位安排完全根据测验结果来定,没有歧视黑人。 法庭要求公司提供测验对职位胜任的预测力。
案例二 某大学学生期终考试后向校方提出质疑,说教授给出的考试范围是教科书中的1—10章,但考试内容却都集中于前三章,这样的考试无法检验真实的学习成绩,也就是考试并没有提供一个让我展现所学全部知识的机会。
第一节 效度概述 定义: 测验达到测量的目的,即测到了要想测量的对象. 效度反应了测验的准确性
与目的有关的真分数在实测分数中所占的比例 (在实测分数中有效真分数所占的比率) 实测分数=真分数+误差(随机误差) 与目的 与目的 有关 无关(系统误差)
一个稳定但无效的智力测验 • 1. 你出生在几月份? • 2. 你母亲姓什么? • 3. 1+1=? • 4. 一个星期有几天? • 5. 下面哪个是三角形? A. □ B. ○ C.▲
信度与效度的关系 信度是效度的必要条件,但不是充分条件.要想一个测验的效度高,其信度必须得高;但信度高,效度未必高.
影响效度的误差来源 1.测验题目不能反应要测量的特征. 2. 实施过程偏离了标准化的程序. 3. 被试不能如实回答.
测验效度的类型 • 效标效度 • 内容效度 • 结构效度
第二节 效标效度(准则关联效度) 什么是效标: 反应测验目的的行为参照. 什么是效标效度: 测验分数与效标行为间的一致性程度
理想效标的四大条件 • 有效性 • 可靠性 • 可操作性 • 实用性
预测性和同时性效度 • 预测性效度:测验分数和以后的某个效标之间的相关 • 同时性效度:同时获得测验分数和某个效标之间的相关
七种效标类型 安娜斯塔西的分类(1977) • 学业成绩 • 特殊训练课程成绩 • 实际工作表现 • 对照组 • 精神病诊断 • 评定 • 先前已有的测验
效标效度的计算方法 1. 相关法 求取测验分数与效标变量之间的相关程度,即效度系数.
1) 积差相关 在两组数据都是连续变量,且两者存在线性关系时使用 公式:
2) 二列相关 在测验分数和效标这两个变量中一个是连续变量,另一个是二分变量时使用. 公式:
例: 智商与学校类型的关系 p 重点中学被试百分比 66/352 = 0.1875 q 普通中学被试百分比 286/352 = 0.8125 重点中学被试智商均数 114 普通中学被试智商均数 96 St 总体标准差 14.53 y 常态曲线下,p 所对应的纵轴高度 0.2685
3) 多元相关 在测验分数和效标变量中有一个是连续变量,另一个是二分以上的变量时使用. 用Juspen公式 4) 等级相关(spearman`s rho) 在两组变量都是等级时使用 用斯皮尔曼等级相关系数.
5) 四格相关 在两组变量都是二分变量且都是人为的时使用. 用皮尔逊余弦 法. 如两组变量都是二分变量,但至少其中的一组是真实的二分法时用phi相关
二.区分法 以被试在效标上的表现分组,然后再对两组被试在测验中的成绩用t值进行显著性差异的检验. 公式:
区分法的缺点是如果样本规模大的时候,没有显著性也能算出显著性差异来,所以要配合重叠量的使用.区分法的缺点是如果样本规模大的时候,没有显著性也能算出显著性差异来,所以要配合重叠量的使用.
1. 以称职组的平均数为指标,看两组中超过这一平均数的人次百分比.比例越低说明差异越大,如称职组的平均数为6.05,不称职组超过此分数的有7人,称职组超过这一分数的有38人,人次比为7/38,重叠的部分为18%,差异很大.
2. 统计称职组中分数低于不称职组平均数的人数,和不称职组中分数高于称职组平均数的人数.然后两数相加,再除以总人数.如:称职组20人,不称职组20人,不称职组中分数超过称职组平均数的有7人,称职组中分数低于不称职组平均数的有3人, 那么 有25%的重叠部分.
3. 算出两组人分数分布共同区域的百分率,即重叠的区域,如重叠区域越大,说明差异越小,而重叠小说明测验有效.
3. 命中率 测验有效性的指标之一就是作出正确决定的比率,即决策的命中率.
第三节 内容效度 定义: 测验题目对所要测量的内容范围的代表性程度,考验题目样本是否代表了内容总体。
内容效度的两个要点 • 测题对测量对象的有效性 • 全部测题对测量对象的涵盖程度
例子对一个优秀篮球运动员技能的测量 测量目的: 一个优秀篮球运动员需要具备的技能 对内容领域的描述: 投蓝,运球,抢篮板。 测验A: 在各个位置上投蓝40次; 测验B: 各种情景下的运球30次.
确定内容效度的方法 专家判断 请某领域里的专家来评判测验的内容是否编排的合理. 缺点: 1) 没有量化指标; 2) 对内容效度的判断不一致; 3) 教育思想或心理学观点不同,所以对内容范围的理解也不同.
内容效度比(CVR)= 内容效度比低的题目就应该被淘汰.然后计算全部测题的内容效度比的平均数,作为内容效度的指标.
其他辅助的方法 2.统计分析法 3.再测法 4.经验法 5.内在一致性
内容效度与表面效度的区别 表面效度是指测验看起来所要测量的东西,是被试或外行看来是有效的测验. 表面效度与内容效度并不总是一致的. 表面效度能间接影响测验的效度,所以测验编制时也要适当关注表面效度.
提高内容效度的有效方法: 编制命题的双向细目表
第四节 结构效度 定义: 测验能够测量到理论上的结构或特质的程度.
某一智力理论的四项假设: 1.智力随年龄而增长; 2.智商是稳定的; 3.智力与学业成绩有密切关系; 4.智力受遗传的影响.
某注意力的理论,注意有如下特征: 1.稳定性 2.集中性 3.转移性 4.分配 5.范围
收集结构效度资料的方法 1.测验内方法 研究测验的内部构造来界定所测量的结构范围. 1) 内容效度 2) 内在一致性 3) 因素分析
2. 测验间方法 研究几个同类测验间的相互关系来考察它们是否测量相同的心理结构. 1)相容效度 2) 会聚效度和区分效度
3. 发展变化 4. 实验操作 5. 结构方程建模