第四章 测试效度及其
This presentation is the property of its rightful owner.
Sponsored Links
1 / 45

第四章 测试效度及其 验证方法(一) PowerPoint PPT Presentation


  • 127 Views
  • Uploaded on
  • Presentation posted in: General

第四章 测试效度及其 验证方法(一). 湖南师范大学外国语学院 邓 杰 教授. 教学目标. 了解效标关联效度的概念、内涵及不足 了解相关分析的原理、相关性假设检验及其 SPSS 操作 了解内容效度的概念、内涵及不足 了解专家评判一致性的检验方法及 SPSS 操作 了解构念效度的概念、内涵及常用检验方法 了解因子分析和回归分析的原理、功能及 SPSS 操作 了解结构方程模型的原理、功能及 AMOS 操作. 1 、单一效度论 ( 20 世纪 50 年代以前). 效标关联效度 ( Criterion-related Validity )

Download Presentation

第四章 测试效度及其 验证方法(一)

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


4980344

第四章 测试效度及其验证方法(一)

湖南师范大学外国语学院

邓 杰 教授


4980344

教学目标

  • 了解效标关联效度的概念、内涵及不足

  • 了解相关分析的原理、相关性假设检验及其SPSS操作

  • 了解内容效度的概念、内涵及不足

  • 了解专家评判一致性的检验方法及SPSS操作

  • 了解构念效度的概念、内涵及常用检验方法

  • 了解因子分析和回归分析的原理、功能及SPSS操作

  • 了解结构方程模型的原理、功能及AMOS操作


1 20 50

1、单一效度论(20世纪50年代以前)

  • 效标关联效度(Criterion-relatedValidity)

    • 概念内涵:当前测试与标准测试的相关程度

    • 验证方法:求两个测试成绩的相关系数(CorrelationCoefficient)

  • 两个子类

    • 同期效度(ConcurrentValidity)

    • 预测效度(PredictiveValidity)

  • 主要问题

    • 标准测试自身的效度

    • 同期效度两个测试的可比性

    • 预测效度两个测试相关的意义

效标关联效度

当前测试

标准测试

相关分析

Validity=Correlationefficient

A test is valid for anything with which it correlates.


4980344

相关分析

线性相关

非线性相关或曲线相关

Pearson 积距相关

(定距数据)

相关系数r 的取值范围为 [-1,1],其中:

  • |r|<0.3称为微弱相关

  • 0.3≤ |r|<0.5称为低度相关

  • 0.5≤ |r|<0.8称为显著相关

  • 0.8≤ |r|<1称为高度相关或强相关

Spearman 等级相关

(定序数据)


4980344

积距相关示例

p/2

p/2

拒绝区间

α/2

接受区间

1-α

拒绝区间

α/2

  • p表示H0成立的概率, 为一个非常小的概率。

  • 如果p值比 更小,则说明H0几乎不可能成立,完全有理由拒绝H0而接受H1;

  • 相反,如果p值大于 ,则说明拒绝H0的理由还不够充分,只能接受H0。

  • 如果p值不大,即使接受H0,结论的说服力也不强;如果p值为大概率,那么接受H0同样具有说服力。

  • 检验结果

  • 说明.963的相关系数具有统计意义,两组成绩显著正相关

原假设(Null Hypothesis):H0: r=0

备择假设(Alternative H ):H1: r≠ 0

接受H1的条件极度苛刻,H1被接受则结论说服力强,所以期望的结论通常为H1


2 20 50 80

2、效度分类说(20世纪50~80年代中期)

  • 三位一体:内容效度和构念效度作为效标关联效度的补充

效标关联效度

当前测试

标准测试

相关分析

内容效度

构念效度

分数

潜在特质

相关性

典型性

充足性

专家评判

多质多法、因子分析、结构方程等


Content validity

内容效度(ContentValidity)

  • 定义

    • 试题或任务在多大程度上代表了目标内容的范畴或全域

  • 内涵

    • 测试内容的相关性、典型性及充足性

  • 检验方法

    • 专家评判:先检验评判一致性,再分析有效程度

目标内容

抽样

测试

内容

内容效度

相关性

典型性

充足性

专家评判


Inter rater consistency test

专家评判一致性检验(Inter-raterConsistencyTest)

  • Cronbach 信度系数(定距)

  • Kendall’sw协同系数(定序)

两位专家时,等同于Pearson相关系数

两位专家时,用Kendall’sTao

或 Spearman等级相关(注意:行为考生,列为专家)


Cronbach

评判一致性检验(Cronbach )

至少还应同时报告项总体平均分和标准差或方差

  • < 0.6,较差

  • 0.6≤ < 0.8,较好

  • ≥0.8,很好


Kendall s w

评判一致性检验(Kendall’sW )

H0: 专家评判不具一致性

H1: 专家评判具有一致性

请解读此统计结果


Construct validity

构念效度(ConstructValidity)

  • 定义

    • 分数解释构念的合理性程度

  • 内涵

    • 分数的真实含义,即分数到底意味着什么

  • 验证方法

    • 多质多法分析(Multitrait-Multimethod, MTMM)

    • 因子分析(Factoranalysis)

    • 结构方程模型(StructuralEquationModel)

构念效度

分数

潜在特质

多质多法、因子分析、结构方程等


4980344

多质多法分析(MTMM)

Method1

Trait1

Method2

Trait2

Method3

Trait3

Method4

异法同质的相关强——又称聚合效度(Convergent Validity)

同法异质的相关弱——又称区分效度(Discriminant Validity)


Factor analysis

因子分析(FactorAnalysis)

x1

x2

x3

x4

x5

x6

x7

x8

x9

x10

r3,1

降维

r4,1

r2,1

r8,3

r5,3

r3,2

r2,3

r7,2

r1,1

r10,3

r6,1

r1,2

r9,2

r1,3

Factor2

Factor3

Factor1

探测结构

降维: 因子个数应远小于原有变量个数

探测结构:一个因子应可解释一种类别特征,如能力特征、任务特征、评判特征

信息损失小:因子应能反映原有变量的绝大部分信息

因子独立性:各因子应不相关,否则即意味着存在未被提取的因子

变量相关性:同类变量相关应趋向1,不同类变量相关应趋向0(因子分析中旋转的目的)


4980344

因子分析数学模型

线性组合矩阵

因子维度

f2

fk

f1

共同度(Commonality)

x1

x2

所有因子共同代表变量(xi)的程度(xi 应只与一个因子高度相关);

值越接近1,信息丢失越少

xp

特征值(EigenValue)

因子负荷(Loading)

特殊因子

(标准化后)

因子(fj)代表所有变量的程度(f1个最大)

变量(xi)与因子(fj)的相关程度

降维后的信息丢失程度;

值越接近0,信息丢失越少

标准化后,所有变量的总方差为 p,

特征值与p之比即为因子的方差贡献率

标准化,即令


4980344

因子分析例析

3位教师对31个学生的作文进行评分,评判指标包括内容(Content)、结构(Structure)、词汇(Vocabulary)和连贯(Cohesion) 四个项目,评判等级从低到高分为1~5共五个等级。请先检验评分员之间的一致性,再通过因子分析对评分结果做出解释。

因子分析数据表

评判一致性分析数据表

评判一致性检验结果


4980344

操作步骤

使因子负荷向0或1分化

(相关变量逐步聚拢,不相关变量逐步远离)


4980344

因子分析适宜性检验

拒绝“各变量各自独立”的原假设,

适合做因子分析

KMO检验

检验取样足够度,值越大取样越充分,最大值为1

  • Bartlett的球形检验

  • 检验各变量是否各自独立

    • H0:各变量各自独立

    • H1:各变量互不独立(存在相关)

各变量存在相关且取值范围大致相当时,数据分布才有可能呈球形


4980344

结果与讨论

共同度(Commonality)

公共因子能体现绝大分变量80%以上的信息

p为原始变量数;k为提取因子数

方差贡献率(%ofVariance)

特征值占原始变量总数的百分比

特征值(EigenValue)

前3个成份的特征值总计达10.5,方差贡献率累积接近80%

累积方差贡献率应不低于80%

旋转后,各因子的特征值和贡献率趋于均匀

(本例中成份4无明显改善)

用4个因子代替12个变量,约丢失15%的信息


4980344

结果与讨论

成份得分矩阵与旋转成份矩阵结果类似,但成份4更难以解读

  • 4个成份与12个变量的相关系数表明:

  • 前3个成份分别代表第2、1和3位评分教师;

  • 第4个成份虽与Structure1和Structure3两个变量存在一定关联,但两变量分别与成份2和成份3的关联更强

结论:因子分析未能提取与内容、结构、词汇和连贯相关的4个成份,但前3个成份能很好代表3位评分教师,这说明本次写作成绩能说明教师的评分情况,但难以解释写作能力的结构维度(试讨论可能的原因)。


Regression model

回归模型(RegressionModel)

y因变量(DependentVariable)

x自变量(IndependentVariable)

y

x

x1

x2

x6

y

y 和 x 均为观测值

预测值(PredictedValue)

残差(Residual)

一元线性回归模型

截距(Intercept),常量

斜率(Slope),回归系数

y

曲线性回归模型

(指数曲线)

x

多元线性回归模型


4980344

回归分析

2. 回归系数显著性

1. 回归方程显著性

回归平方和

残差平方和

Sig. 应小于.05

总方差

是否显著大于1

Sig. 应小于.05

H0:x和 y 的线性关系不明显

H1:x和y 的线性关系明显


4980344

3. 残差分析

残差应不包含明显的规律性或趋势性,即残差序列服从正态分布,且不存在自相关。

DW(Durbin-Watson)检验

自相关系数

P-P图:累积概率围绕对角线波动

完全负相关

负相关;

不相关

正相关

完全正相关

Q-Q图:数据点在直线上下随机散布(探测离群值或异常)

残差服从均值为0,方差为 的正态分布


4980344

回归分析例析

专家根据可能的猜测因素对选项的可猜性进行了评判,结果如下表所示。试分析导致选项可猜的主要因素和次要因素。

(选项可猜)

(选项不可猜)

GPrb:可猜性

ACmm:常识性

ADet:限定

AClu:前后题线索

AStm:与题干的关系

AInc:包含关系

AOpp:对立关系

ASmn:语义凸显

AFrm:形式凸显

AElm:排除法

y

Distractor

Key

x

1

2

3

-3

-2

-1

-3 肯定错;-2很可能错;-1 可能错

0 不可猜 1 可能对 2 很可能对 3 肯定对


4980344

SPSS操作

R方(R2),又称复相关系数或判决系数,反映回归模型解释总方差的比例。

共线性:各变量应相互独立,否则应先进行因子分析,再用因子代替原始变量。

个案的观测值及其与期望值的差

残差分布正态性

Q-Q图(Quantile-QuantilePlot,分位数):

Y:标准化残差;X:标准化预测值

P-P图(Probability-Probability Plot)


4980344

模型拟合度

所有模型都能拟合

随着解释变量的增多,回归平方和越来越大、残差平方和越来越小

逐步方法各步骤纳入的变量


4980344

相关性

相关矩阵

五个变量显著相关,说明导致选项可猜的主要因素为此五种


4980344

模型汇总

回归模型能够解释总方差的比例。一般应不低于80%。

R方更改量越大,预测性越强。一般应大于10%。

残差自相关检验结果。DW应约为2。


4980344

系数检验

Sig.应小于.05

容差:Tolerance

表示未被其他变量解释的量。值最小,说明可被其他变量解释的量越多,共线性问题越严重。

VIF:VarianceInflationFactor (膨胀因子),为容差的倒数。一般应小于2,意味容差大于50%。


4980344

残差分析

分布高度集中在均值周围且标准差非常小

1个正离群值

2个负离群值

2个负离群值

1个正离群值


Greek letters

结构方程模型基础(Greekletters)


Structural equation modeling sem

结构方程模型(StructuralEquationModeling-SEM)

/fai/

协方差

(Covariance)

因子分析模型

验证性因子分析,ConfirmatoryFactorAnalysis-CFA

探索性因子分析,ExploratoryFactor Analysis-EFA (SPSS中)

潜变量

(latent)

/ksai/

负荷

(loading)

观测变量

(observed)

误差

(error)

误差

(error)

图1 测量模型(MeasurementModel)

直接效应

(Direct Effect)

间接效应

(Indirect Effect)

  • Direct effect(直接效应) is that influence of one variable on another that is unmediated by any other variables in a path model

  • Indirect effects(间接效应) of a variable are mediated by at least one intervening variable

  • Total effects(总效应) are the sum of direct and indirect effects

    • Total effects = Direct effect + Indirect effects

内生变量(果)

(endogenous)

外源变量(因)

(exogenous)

回归分析模型

图2 结构模型(PathModel)


Structural equation modeling sem1

结构方程模型(StructuralEquationModeling-SEM)

验证性因子分析

路径(回归)分析

图3 全模型(FullModel)


Sample size

样本规模大小(Sample size)

  • 数据服从正态分布、无缺失值和异常值(Bentler&Chou,1987)时,样本比例最小为估计参数的5倍,10倍更合适,否则,样本比例应为估计参数的15倍。

  • 用极大似然法(Maximumlikelihood)估计时,Loehlin(1992)建议样本数至少为100,200较为适当。当样本数400-500时,此法会变得过于敏感,而使得模型不适合。


4980344

模型拟合优度评价


4980344

模型建构(AMOS软件)

3. 选择 ,打开数据表文件,并浏览数据。

1. 选择 ,快速绘制潜变量及其观测变量。

2. 选择 ,把观测变量旋转到适当位置 。

5. 运用插件(Plugins)自动为潜变量和参数(负荷及误差)命名,添加协方差(双箭头),或调整观测变量的大小。

4. 选择图标 ,将数据表字段拖至为各观测变量,建立变量与字段的关联。


4980344

输出设置

输出效应值

输出标准化估计值(不同单位数据可比)

输出修正指数(MI)(提示如何修正模型)

输出临界比(CR)

(逐步比较参数的差异临界比)


4980344

模型修正例析

H0:数据完全拟合模型

最小样本差异卡方检验的P值应>0.05;CMIN/DF应小于2.

一次修改一个,且MI为最大值

RMSEA应<.05;PCLOSE应>0.05.

H0:RMSEA无异于.05


4980344

模型修正例析

最小样本差异卡方检验的P值应>0.05;CMIN/DF应小于2.

GFI和AGFI分别由.975和.913提高到.998和.990.

RMSEA应<.05;PCLOSE应>0.05.


Social alienation

输出结果解读(结构方程模型经典案例——惠顿的社会疏离感[SocialAlienation]历时研究)

标题

例6,模型A:通过中间变量 SES (Socio-Economic Status),探索分析社会疏离感的稳定性。相关系数、标准差和均值来自Wheaton et all (1977)。

观测变量

67年和71年的难以名状感(anomia)和无力感(powles) 为基于量表Anomia和Powerlessness的观测值;教育(education)和SEI分别为67年时的受教育年限和邓肯社会经济指数值。

模型识别

各误差项到观测变量的方差固定为1,各潜变量到观测变量的路径中,一条路径的方差固定为1,其余自由估计。


4980344

Notes for group (Group number 1)

The model is recursive.(递归模型)

Sample size = 932(样本量)

Unobserved, exogenous variables

eps1

eps2

eps3

eps4

ses

delta1

zeta1

zeta2

delta2

Variables Summary (Group number 1)

Your model contains the following variables (Group number 1)

Observed, endogenous variables

anomia67

powles67

anomia71

powles71

educatio

SEI

Unobserved, endogenous variables

71_alienation

67_alienation

由箭头引导的变量

(外源/外生)

有箭头指向的变量

(内生变量)

Variable Counts (Group number 1)

Number of variables in your model:17

Number of observed variables:6

Number of unobserved variables:11

Number of exogenous variables:9

Number of endogenous variables:8


4980344

Parameter summary (Group number 1)

样本矩:6个观测变量的方差及其协方差(6中取2的组合数=15)。

Computation of degrees of freedom (Default model)

Number of distinct sample moments:21

Number of distinct parameters to be estimated:15

Degrees of freedom (21 - 15):6

ChiSquareGoodness/BadnessofFit

(卡方拟合优度/劣度)卡方值越小,拟合越好。

H0:观察(实际)协方差矩阵与模型(期望)协方差矩阵相等(没有差异)

Result (Default model)

Minimum was achieved

Chi-square = 71.544

Degrees of freedom = 6

Probability level = .000


4980344

Regression Weights: (Group number 1 - Default model)

C.R.(CriticalRatio,临界比)=

Estimate/S.E.(StandardError, 标准误,即标准差的平均值)

H0:回归系数为0

H1:回归系数不为0

若回归系数不具统计意义,则应删除相应路径。

Variances: (Group number 1 - Default model)

H0:方差为0

拒绝H0

***:P小于.001(小数点后4位)


4980344

Modification Indices (Group number 1 - Default model)

Covariances: (Group number 1 - Default model)

模型修正可以减少卡方值

一次修改一个;

M.I.为最大值;

理论上应有合理解释

(本例中,67年和71年的难以名状感应具有相关性,增加两观测变量误差的协方差具有合理性)

Variances: (Group number 1 - Default model)

Regression Weights: (Group number 1 - Default model)

若两个方差或回归系数的估计值差异不显著,可取同样的名称,以减少估计参数的数目,简化模型。


4980344

Hoelter’sCriticalN: (Group number 1 - Default model)

在.05 和 .01 显著性水平上可以接受的最大样本量。本例的样本量为932,远超过临界样本量,导致模型被拒绝。


4980344

TEM8实例分析

二阶三因子模型能最好解释TEM8人文知识题所测试的目标构念。

除此以外,还应报告哪些数据?

一阶三因子

一阶单因子

(First-Order)

二阶三因子

(Second-Order)


  • Login