专题讲座

专题讲座 教育统计方法与考试评价 WJSoft Studio 维佳软件工作室

前言 考试评价作为教学评价的组成部分之一，如何适宜新课程标准和全面推进素质教育的要求，在发挥甄别与选拔功能的同时，加强改进与激励的功能；在重视终结性评价结果的同时，更加关注教学过程中的形成性评价；在研究分析学生成绩时，重视学生全面发展和个体差异；改变评价方法单一的通病，广泛宣传和采用科学的教育统计方法，形成完善、健全的考试评价指标体系和评价制度，是中小学评价与考试制度改革需要探索的课题。

内容介绍 • 考试评价理论简介 • 考试评价的现状、动态或趋势 • 测验分数的解释 ——导出分数（重点） • 个体内差异评价的量化指标和工具（重点） • 测验分数分布状态的描述方法 • 测验分数分布趋势的描述方法 • 推断统计分析方法 • 多元统计分析方法

考试评价的功能 终结性评价在教育活动的某个阶段结束后，为整体效益作全面鉴定所进行的评价。目的：总结教育成果。作用：鉴定效益或成果，提供决策信息。通常指中考、高考等在整个教学阶段结束时进行的考试评价。形成性评价教学过程中，为了获得反馈信息，促进教学方案、计划、课程等的形成所进行的评价。目的：改进教学过程。作用：了解教学过程中的问题和缺陷，提供改进信息。通常指期中考试、期末考试等在每个教学单元结束时进行的考试评价。

考试评价的基准（1） 目标参照性评价 “评价标准在被评价的集体之外，是预先制定的。通过与评价标准相比较，可以确定被评价对象达到目标的程度”。这种评价又称绝对评价，主要用于合格性和达标性的考试。 “其特点是评价标准是由目标所决定的绝对标准。评价时，个体只与标准相比较不进行相互比较”。目标参照性考试评价通常采用原始分数预先制定教学目标，如“优分”、“良好”、“及格”、和“低分”等分数线，量化指标为相应的“优分率”、“良好率”、“及格率”、和“低分率”等。（即目标参照性评价理论——“掌握分数”或“正确百分数”）优点：“可以使被评价对象明确教学目标的差距，激励被评价对象上进的积极性”。缺点：“客观标准的制定比较困难”。另外，由于各个测验的难度不同，各原始分数的价值也不相同，对不同测验的原始分数和相应的量化指标直接进行比较是毫无意义的。

考试评价的基准（2） 常模参照性评价 “评价标准在被评价的集体之内，通过与评价标准相比较，可以确定被评价对象在集体中所处的位置，以分优劣”。这里的被评价的集体也称为常模团体。这种评价又称相对评价，主要用于选拔性的考试。“其特点是评价标准随被评集体的状况而异，仅适用特定的被评集体。常模参照性评价采用导出分数（百分等级分数、标准分数）和常模表（由原始分数和导出分数共同组成的分数量表）作为评价工具。在特定的团体内进行“名次排序”及对中考、高考的“有效分、上线率”的分析也可以归属到本类评价的范围。优点：“无论常模团体的状况如何，都可以确定的标准进行评价”。缺点：“容易降低客观标准，评价结果并不表示被评价者的实际水平”。

考试评价的基准（3） 个体内差异评价常模团体内，对每个个体（或小团体，如学校或班级）进行今昔比较（不同测验之间）或个体诸侧面（不同科目之间）进行比较所作出的评价称“个体内差异评价”，是常模参照性评价应用的优势领域和发展方向。 “个体内差异评价要用标准分数进行比较。若用原始分数对今昔或各侧面进行比较，就会与评价的定义相背离，失去评价的意义。因为它既没与绝对标准相比较，也没与他人相比较，而且没作出价值判断”。

考试评价的现状、动态或趋势 考试评价的现状考试评价的原始阶段考试评价的发展阶段考试评价的动态或趋势注重发挥形成性评价的作用注重发挥“个体内差异评价”的作用采用更多的教育统计方法作为考试评价的工具

考试评价中普遍存在的问题 受所使用Excel软件或使用Foxpro软件简单编程功能的局限，基本采用目标参照性评价的方法，评价方法相对单一……。许多地区教研室往往只进行重要考试的终结性评价，而且缺少许多重要指标的定量分析，例如描述测验分数分布状态的偏度系数、峰度系数、正态检验等，试题的难度和区分度分析，测验的信度和效度分析等；向教学一线的学校也只能反馈少量的考试信息。由于忽视教学过程的形成性评价和评价方法单一，大量的考试信息未能得到充分开发、反馈和利用，改进教学过程的作用十分有限。

考试评价的动态或趋势 注重发挥形成性评价的作用教研室注意把详细的分析信息反馈给各科教研员和各学校，指导教研工作和改进教学过程。充分重视学校和教师在形成性评价过程中的作用，使考试评价成为教研室、学校、教师和学生共同参与的交互活动。……。注重发挥“个体内差异评价”的作用在常模参照性评价中，逐步淡化被评价者在团体中所处的位置的比较，而注重对个体进行自身纵向比较和或个体诸侧面比较的“个体内差异评价”，研究被评价者的发展和变化的过程。……。采用更多的教育统计方法作为考试评价的工具

考试评价（G + W + P）软件 GSAS软件 ——成绩统计分析采用“教研室与学校联合统计分析成绩”的先进模式丰富的教育统计学、教育测量学的功能使用Office作为系统的输入和输出环境系统功能高度集成，效率高，操作简便 “单校版”具有更强的功能 WMAS软件 ——测验质量分析试题的难度分析和区分度分析、测验的信度分析和效度分析 PCAI软件——多元指标综合评价

GSAS软件及数据流程 大中型城市教研室成绩汇总、统计分析软件GSAS，经过了南京、济南、青岛、宁波、南通、连云港、镇江、枣庄、马鞍山等城市40多个教研室（近1000所学校）的使用、修改和完善，不断丰富其内容和功能，也汇集了各地教研室的理论和实践经验，特别是新课程改革实验，教育部《关于积极推进中小学评价与考试制度改革的通知》颁发后，各地区中学考试评价改革的宝贵经验。 GSAS系统主要由“单校版”、“汇总版”和“区县版”3个软件版本组成，分别安装在学校或市教研室，可组成一个覆盖全市范围，采用统一标准，集汇总、统计和分析于一体的成绩测量和评价体系。系统采用 “教研室与学校联合统计分析成绩”的先进模式，根据数据所在的位置及处理方法的不同，可以灵活地使用“分散数据汇总”或“集中数据分发”流程运行，分别适应“形成性评价”和“终结性评价” 考试的需要。

GSAS数据流程（1）—分散数据汇总 通常应用于期中考试、期末考试等“形成性评价”的考试。十分方便、快捷地生成全市汇总数据库。很好地解决了教研室收取分散数据时格式不统一、处理困难的问题。为市级、区县级教研室能够经常性地进行成绩统计调研提供一个强有力的工具。

GSAS数据流程（2）—集中数据分发 通常应用于中考、高考及其模拟考试等“终结性评价”的考试。数据集中处理，直接生成全市汇总数据库和“地区常模表”——全市的分数评价标准 ——精确地产生“有效分”指标，便于划定总分和每个学科的若干分数线，并将有效分指标返回学校。

组成全市考试评价体系的优势 贯彻统一的评价标准，实现全市教研室和学校考试信息的共享，全面反馈考试信息和评价标准。大量考试信息和评价标准面向教学第一线进行反馈，使学校及教师能及时了解教学中的问题和缺陷，可以充分地发挥考试评价改进教学过程的作用。由于充分重视学校和教师在形成性评价中的作用，使考试评价真正成为教研室、学校和教师共同参与的交互活动。

测验分数的解释—导出分数 通过测验所直接得到的分数，叫原始分数。“原始分数本身意义甚小，因为仅从个别学生的原始分数，我们无法了解他学习成绩的好坏，知识能力的高低，也无法与其他学生相互比较”。 “由于各个测验的难度不同，各原始分数的价值也不相同，不同测验的原始分数不能进行直接比较”。 “为了使原始分数本身具有意义，使不同测验的原始分数可以相互比较，就必须把它们转换成导出分数。所谓导出分数就是经过统计处理过的，具有一定参照点和单位的、可以比较的分数”。 “在教育测验中常用的导出分数有百分等级分数和标准分数”。

测验分数的解释 —导出分数 百分等级分一个原始分数不能表明它在全体分数中的位置。百分等级分是一种相对地位量数，它把参加测验的全体人数作为100分来计算，从而以某一原始分数换算出其在全体中的位置。百分等级分的优点：它能十分直观、准确地表示某原始分所在的百分位置；“同一个被试在不同测验的百分等级可以进行相互比较”；“不同的被试在同一个测验上的百分等级可以进行相互比较”。百分等级分的缺点：它是一个循序量数，“仅能表示被试测验成绩的好坏和位次，不能进行加减乘除运算”，给进一步的分析带来了困难。

测验分数的解释 —导出分数 线性标准分标准分Z的计算公式为：式中，为第i个学生的原始分，为平均分数，S 为标准差。标准分数是一个以平均值为参照点、以标准差为单位、测量原始分数与其平均分数的距离的量数，可以表示一个原始分数在团体中所处的相对位置。不管原始分数的平均分、标准差如何，相同的标准分表示在分布中处于同样的相对位置。

测验分数的解释 —导出分数 标准分的其他形式为使标准分更符合我们平时的记分习惯，可将标准分Z转化为另一种标准分T，其计算公式是： T = 10Z+50 常用的标准分还有“标准分CEEB”和“标准化九段分”。标准分CEEB的计算公式是： CEEB = 100Z+500 标准化九段分的计算公式是：标准化九段分= 2Z+5

举例：多科测验分数加权评定标准化 利用标准分的“可加性”，可以合成标准总分。由于各科测验标准和难度不同，不应该把各科测验的成绩等价看待。合成总分时，将各科测验的成绩等价相加是不合理的。“这种不合理现象主要是由于没有一个统一的参照点和单位的量表所造成的”。 “将原始分数转换为标准分数之后，标准分数就有统一的参照点和单位了。依标准分数既可以定性地确定某应试者这一学科测验成绩在平均分数之上或之下，又可以定量地确定某应试者这一学科的成绩离开平均数的距离”。合成标准总分比原始分相加的方法，在学校内有利于合理评价学生的多科成绩（见附表举例）。 GSAS单校版中的计算公式，合成标准T总分： T总分 = 语文权重×语文T分 + 数学权重×数学T分 + ……

举例：合成标准总分的合理性 摘自《教育统计学》王孝玲编著华东师范大学出版社 2001年修订版第92页 “三门学科标准分数的总和或总平均都是甲生优于乙生，恰好与原始分数的比较结果相反”。

线性标准分的优点、缺点 线性标准分的优点：“如果几个不同测验的分布形态是很相近的，那么，同一个被试在几个不同测验上的线性标准分数，可以相互比较”，“可以将一个被试几个不同测验上的线性标准分数相加求和”。即通常所说它具有的“可比性”和“可加性”，可以直接进行合成运算。线性标准分的缺点：“当两个测验的分布形态不同时，它们的线性标准分既不可以相互比较，又不可相加求和”。

各种导出分数与正态分布对应关系

正态化标准分（非线性标准分） 不同测验的线性标准分“只有在分布形态相同或相近的情况下才能进行比较，如果两个分布的形态不同，譬如一个是正态，一个是负偏态，那么相同的Z 分数可能代表不同的百分等级。对于这样的两种分数，我们难于做到准确地比较，”。“当两个测验的分布的形态不同时，它们的线性标准分既不可以相互比较，又不可以相加求和”。 “为了使不同的测验分数可以相互比较，则需将之正态化”，即使用进行过非线性转换的正态化标准分。

负偏态分布正态化图 非线性转换的结果是把偏态分布强制扭转成为标准正态分布形态。转换生成的正态化标准分消除了分布形态的影响，才具有真正意义的“可比性”和“可加性”，为科学、准确地对不同测验的分数进行比较和分析奠定了基础。

“个体内差异评价”的量化指标和工具 标准分T变化率为了在教学过程中对被试（学生或团体）进行自身的纵向比较，定量地计算测验成绩提高或降低的水平，通常使用“标准分T变化率”指标：标准分T变化率 =（本次T分数 —初始T分数）/ 初始T分数 × 100% 举例1：用标准分T变化率对班级或学校进行比较和考核。举例2：标准分T及其分层推进评价在考试评价中的应用。

“个体内差异评价”的量化指标和工具 常模表 ——测验的比较标准 “某一个测验分数必须与统一的标准进行比较才能确定其优劣，这个可供比较的标准就是常模”。“常模是某被试团体，在某一次测验上实际达到的平均水平”。 “常模表”则是全面呈现常模资料的方法，是用来作为比较标准的一种测验量表。它包含了全系列连续的原始分数，列出了原始分数与导出分数（百分等级分和标准分）的对应关系。 “常模表以等值表的形式将原始分数与导出分数之间的对应值表示出来。在常模表中，我们可为某个被试的原始分数寻找到它在常模团体中的相对位置，以确定其测验成绩的优劣”。取总体容量较大的团体数据、使用正态化标准分而编制的“地区常模表”，用来作为全市、区县的测验比较标准，具有多方面的重要的应用价值。

地区常模表的格式 1 举例：某科目的原始分和导出分数对照表备注：本表中的标准分Z、T、九级分均为正态化标准分

地区常模表的格式 2 举例：全部科目的导出分数和原始分对照表备注：本表中的标准分Z、T 均为正态化标准分

“个体内差异评价”的量化指标和工具 地区常模表的应用准确地分析某个学生或集体的成绩在全市的位置对两次不同测验的成绩进行精确比较和考核确定考核分数线或有效分的指标

“个体内差异评价”的量化指标和工具 百分等级分变化表标准分T —质量管理图由保存的若干次百分等级分及标准分T的记录编制而成，可对某团体或个人在总体中的地位变化（即成绩的进步或退步）作形象、直观地描述。举例1：百分等级分变化表的应用；举例2：标准分T—质量管理图的应用。

“个体内差异评价”的量化指标和工具 百分等级分变化表的应用举例：某学生的百分等级分变化表（单位：%）

测验分数分布状态的描述方法 频数和频率分布表频数和频率分布图累计频数和频率分布表累计频数和频率分布图偏度系数峰度系数频率分布的正态检验举例1：测验分数的分布状态；举例2：频数和频率分布图的应用；举例3：累计频数和频率分布图的应用；举例4：偏度系数、峰度系数、频率分布的正态检验的应用。

测验分数的分布状态 正态分布、负偏态分布、正偏态分布、双峰分布

测验分数分布趋势的描述方法 数据集中趋势的描述平均值中位数众数数据离散趋势的描述标准差最大值最小值极差四分位差变异系数平均差平均差系数。举例1：变异系数的应用；举例2：均值—离差描述折线图的应用；举例3：中位数—四分位数（5点描述法）折线图应用。

变异系数的应用 当不同特质而且所测量的样本水平比较接近，例如两门课程成绩的满分值相等，而且平均分也比较接近时，可以直接用“绝对差异量”—标准差来比较它们的离散程度的不同。但是，当不同特质或所测量的样本水平不同时，若直接用标准差来比较它们的离散程度是毫无意义的。必须用“相对差异量”—变异系数CV来进行比较。变异系数CV = 标准差 / 平均分×100 例如：某班级在一次考试中，语文成绩：标准差21分、平均分95分（满分150分），物理成绩：标准差18分，平均分72分（满分100分），试比较它们的离散程度。解：语文CV=21/95×100=22.1 ，物理CV=17/72×100=25 。语文成绩的离散程度小于物理。

推断统计分析方法 参数估计——使用概率论的抽样分布定理，根据样本估计出总体的参数；假设检验——总体分布已知，对总体参数的取值作一假设，用统计理论来判断该假设正确与否；相关分析——对两个变量之间不精确、不稳定的变化关系进行描述；线性回归——把具有相关关系的两个变量之间不精确、不稳定的关系用数学表达式来表达。举例1：频数差异显著性检验的应用；举例2：积差相关分析的应用；举例3：一元和二元线性回归分析的应用。

多元统计分析方法 主成分分析方法——一种多元统计分析方法，它利用数学上处理降维的思想方法，“设法将原来的指标重新组合成一组新的互相无关的综合指标来代替原来的指标，同时根据实际需要从中可取较少的综合指标尽可能多地反映原来指标的信息”。举例：用主成分分析方法生成综合评价指数采用“降维”的主成分分析方法，可以把某学科的“平均分”、“优分率”、“良好率”、“及格率”、和“低分率”等5项指标重新组合成一个“学科评价指数”。进行各学科总评价时，使用“总分平均分”的同时，用“科平均╳╳率”取代各科的“╳╳率”，即可把 k 个学科的多达 k ╳ 5 个指标合成为一个“综合评价指数”。

举例1：多元统计分析生成综合评价指数 GSAS软件生成某学科的综合评价指数： GSAS软件生成全部学科（总分）的综合评价指数：注：综合评价指数Z可以进行两次考试的比较，计算“Z变化率”。

举例2：用PCAI软件生成综合评价指数 教师业务水平综合评价说明：本例摘自祁国英编著《体育用多元分析》对某校教师的业务水平进行综合评价，选定4项指标： X1：教师工作总量 X2：教师教学质量评估的平均分数 X3：本年度发表的论文篇数 X4：学生对教师课堂教学水平的评价分数通过计算中间结果，可以进行因子分析：从反映教学质量的指标X2、X4的系数得出第一主成分为教学质量因子，反映教学工作总量指标X1的系数得出第二主成分为教学及科研因子。从因子分析判断某教师的特长，是属于“教学质量能力型”、“教学科研能力兼备型”……等等。实际工作中，可用教师的各主成分值的大小来评价其相应环节的工作，还可以采用总分来刻划教师的综合业务水平。

感谢诸位领导和老师光临！ 欢迎您使用 G+W+P软件，我们将竭诚为您服务！

专题讲座 教育统计方法与考试评价 WJSoft Studio维佳软件工作室

专题讲座

专题讲座

Presentation Transcript