第六章累进效度及辩论（三）

第六章累进效度及辩论（三） 湖南师范大学外国语学院邓杰教授

教学目标 • 了解实施环节的基本概念、焦点问题及证据来源 • 了解项目反应理论的基本原理 • 了解WinSteps软件的功能和使用方法 • 了解WinFacets软件的功能和使用方法

基本概念：测试真实性；答题行为分析方法；项目反应理论基本概念：测试真实性；答题行为分析方法；项目反应理论焦点问题：考生反应的相关性、真实性、交互性证据来源：考生答卷、调查问卷；监考须知、监考步骤、监考记录；答题过程的调查、访谈等实施效度

基本概念 • 测试真实性（Authenticity）：答题过程体现实际语言使用的程度 • 真实生活任务（Real-lifetasks）：日常生活中有可能碰到的活动，通常不受课程教学内容的约束 • 语言教学任务（Languageinstructionaltasks）：课程教学活动，亦可与日常生活相关 • 答题行为分析方法（ResponseAnalysisMethods） • 观察法（Observation）、问卷调查法（Questionnaire）、访谈法（Interview） • 内省法（Introspection）、反省法（Retrospection）、有声思维（Think-Aloud） • 眼动跟踪（Eye-tracking）

项目反应理论（ItemResponseTheory，IRT） • 理论模型 • 单参数：1PL-One-Parameter Logistic Model，难度（b） • 双参数：2PL-Two-ParameterLogisticModel，难度（b）和区分度（a） • 三参数：3PL-Three-ParameterLogisticModel，难度（b）、区分度（a）和猜测概率（c） • 多维度:Many-FacetsRashModel，影响成绩的多个方面，如评分员、评分方法、话题类别等 • 数值类型 • 二项值（Dichotomous ）：0和1，分别表示答错和答对 • 多项值（Polytomous）：非0－1值，用于等级量表（Rating Scale）和部分得分（Partial Credit）模型。每个值项表示一个类别，代表量表中的等级（始于1），或满分中的任一部分分数（始于0）

考生能力与项目难度 in out out Logodds（比余对数）比率与其余数之比的自然对数 Unexpectedresponses Extremecases

百分比到比余对数 天花板效应（ceiling effect）将考生能力和项目难度都映射到同一量表（比余对数），使之可比。 Ln(95/5) 95% 集中趋势（centraltendency） Ln(50/50) 50% 10% 5% Ln(10/90) 比余对数地板效应 (floor effect) Ln(5/95)

单参数模型（1PL） 项目特征曲线（Item Characteristic Curve）项目特征和项目信息量 How closely the difficulty of the item matches the ability of the person 为考生能力；b 为项目难度；P为答对的概率 (2) (1) (3) • 难度与能力相等时，信息量最大（对于考生，中等难度的项目最好；对于项目，适应中等水平时最佳） • 项目的最大信息量为0.25（答对与答错的概率均为50％时）

1PL测试信息量及标准误(SEM) 测试信息量等于项目信息量之和 5个项目的测试能力方差为测试信息量的倒数，测试标准误为能力方差的平方根项目的最大标准误为1 信息量越大，误差越小 .25 最大测试信息量为1.25

双参数模型（2PL） • ICC越陡峭，区分度越好，信息量越大 • 单参数模型中，ICC斜率相同，不同难度的ICC互不交叉，但双参数模型中，不同难度的ICC由于区分度不同则有可能交叉 a为项目区分度

2PL的测试信息量及标准误 蓝线－测试信息量红线－测试标准误黑线－项目信息量信息量越大，误差越小图中测试，由于项目数量少（仅3个），测试信息量基本取决于单个项目（区分度好的项目）

三参数模型（3PL） b a c c为猜测概率 b不再等于0.5 猜测概率导致信息量下降，误差增加

单参数模型应用示例 WinSteps 软件的结果图表解读

项目难度估计及拟合分析 考生能力估计及拟合分析同理 The most difficult item is the highest vertically. This is item 21.The easiest item is the lowest vertically. This is item 6. The most predictable item is the left-most item. It is item 17.The least predictable item is the right-most item, again item 21. Items along the vertical 0 line exhibit the degree of predictabilitythat accords with the Rasch model 泡泡图（BubbleChart）标准化界内拟合 t 值 t 值以正负2之间为宜：越接近0，越与模型预测一致； >2时，有可能拟合不够（under fit） <-2时，有可能拟合过度（overfit）是否拟合不够或过度，应结合标准化残差均方根（MNSQ）进行分析

项目难度及拟合情况 标准化残差均方根（MNSQ）的期望值为1，超出一定比例为拟合不够（误差太大），低于一定比例为拟合过度（太过完美）。合适的波动比例依样本量而定。项目 21和30的界内拟合指数ZSTD均大于2，但MNSQ均在可接受范围，因此还不足以否定项目的有效性

考生能力及拟合情况 考生4的能力最强（3.95），但界外拟合最差（4.48的MNSQ越大于期望值1），说明该生能力最难预测，肯定有很容易的项目答错了。

考生－项目分布图 测试的难度不够：绝大多数考生的能力处于0～4之间，均值为2 能力在2.5以上的考生众多，但却没有相应难度的项目绝大多数项目的难度在-1～1之间，均值为0 难度在0以下的项目众多，但考生只有4人；难度最小的6个项目甚至没有考生

项目特征曲线 (ItemCharacteristicCurve， ICC) 红线－模型预测曲线蓝线－观测数据曲线灰线－置信度（通常为95％）的上线和下线能力在2以上的考生全部答对（项目难以区分高端考生）能力为－1处有考生答对了（猜测）所有点都落在置信范围之内（整体功能仍然不错）

项目难度问题 能力低于难度4个洛基单位（-4）处，有人答对了，且能力与难度差值在-4～1之间的答对概率为0.25，相当于4选项选择题的随机概率，说明该项目的猜测现象很严重。原因是该项目的难度大（所有项目中难度最大）

项目区分度问题 蓝线低端和顶端区分度差，但中间部分的区分度问题更严重。能力与项目差值在-2至1之间的答对概率都在50％左右。

多项值分析示例 WinSteps 软件的结果图表解读

原始数据 R 意为逆向(reversed)。同时使用正向和逆向项目，可探测出反应是否未经思考，以避免成见效应（HaloEffect－因为成见而不加思索地为所有项目选择同一个值）逆向项目的值应转换为正向值。

能力、难度和区分度估计 PTMEACorr. －Point-MeasureCorrelation 项目与测试的相关系数，即项目区分度。期望值为正相关，正值越大，正相关越强，区分度越好。 25R本为“逆向”项，转换后相关系数为正值

项目难度估计

项目拟合度估计 界内和界外拟合都大于2，拟合不足（Underfit）界内和界外拟合都小于-2，拟合过度（Overfit）

结构分析 去掉拟合过度(17,18,22,6)和拟合不足(25,9,20）的项目iDelete=17,18,22,6,25,9,20 最难项目（13）的两个最高级别的交汇处各类别的难度应该单调递增，而不应颠倒类别的次序颠倒，意味着量表结构存在问题最易项目（15）的两个最低级别的交汇处 M为均值，人数为33

量表结构调整示例

量表质量诊断(五级） 基本无法在图中体现频数极小且难度级别的顺序颠倒

45合并(12344)与43合并(12334)结果 合并后，各级别均有一定观测数量；难度单调递增；界内和界外拟合均在-2和2之间；门槛值亦单调递增

三个量表对比分析 45合并的考生和项目分隔值均大于43合并的两个对应值，说明45合并较43合并区分更好

部分得分（PartialCredit）模型 WinSteps软件结果图表解读

控制文件设计 评分等级部分得分：各项目的评分等级可以各不相同项目标签

考生－项目得分图 考生均值各部分分值的得分项目及难度项目均值

多维分析 WinFacets软件结果图表解读

所有维度的纵向“尺度” “+”－正向观测值越大，估计值越大 “-”－逆向观测值越大，估计值越小维度2－评判对象维度3－评判内容维度1－评分员 Betty估计值最大，观测值最大，得分最高，能力最强值跨度 Brahe估计值最大，观测值最小，评分最严厉

结果报告 负向：给分越少越，越严厉正向：得分越多，能力最强负向：得分越少，难度最大

偏差/交互分析 与其他评分员不一致

非期望评判结果 意外评分员可简化为3类

第六章 累进效度及辩论 （ 三）