Benutzbarkeit von Testkennwerte
This presentation is the property of its rightful owner.
Sponsored Links
1 / 31

Benutzbarkeit von Testkennwerte Jörg M. Müller – Universität Tübingen PowerPoint PPT Presentation


  • 68 Views
  • Uploaded on
  • Presentation posted in: General

Benutzbarkeit von Testkennwerte Jörg M. Müller – Universität Tübingen http://www.joergmmueller.de/default.htm. Gliederung. Motivation: Praxis der Testauswahl Konzepte und Maße der Messgenauigkeit Skalierung von Maßen der Messgenauigkeit 16 Kriterien der Benutzbarkeit Ausblick.

Download Presentation

Benutzbarkeit von Testkennwerte Jörg M. Müller – Universität Tübingen

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Benutzbarkeit von testkennwerte j rg m m ller universit t t bingen

Benutzbarkeit von Testkennwerte

Jörg M. Müller – Universität Tübingen

http://www.joergmmueller.de/default.htm


Gliederung

Gliederung

  • Motivation: Praxis der Testauswahl

  • Konzepte und Maße der Messgenauigkeit

  • Skalierung von Maßen der Messgenauigkeit

  • 16 Kriterien der Benutzbarkeit

  • Ausblick


1 motivation praxis der testauswahl

1. Motivation: Praxis der Testauswahl

Testbeschreibung über Kennwerte ist notwendig!

Kennwerte werden selten berücksichtigt.

Welche Gründe liegen hinter der Testauswahl:

  • Werden alle wichtigen Testeigenschaften anhand von Kennwerten repräsentiert?

  • Welche Gründe spielen neben den psychometrischen Eigenschaften eine Rolle?

  • Werden die Informationen angemessen kommuniziert?


2 konzeptuelle varianten zur messgenauigkeit

Informations-funktion

Messfehler

Reliabilität

Kovarianz-struktur

Überein-stimmung

Informations-theorie

2. Konzeptuelle Varianten zur Messgenauigkeit

M e s s g e n a u i g k e i t


2 zusammenhangsma e als indikator der messgenauigkeit

Varianzquotient

Übereinstimmungs-quotient

Reliabilität

B1

B2

A1

a

b

A2

c

d

Kategoriale Begriffe

2. Zusammenhangsmaße als Indikator der Messgenauigkeit

Inhalt

M e s s g e n a u i g k e i t

Konzept

Index/TT

KTT

Schätzer

Korrelation t1,t2

Formel

Randbedingung

Metrische Begriffe


3 skalierung von kennwerten

Keine Transformation für Intervallskalierung?

Fisher-Z Transformation für Intervallskalierung

3. Skalierung von Kennwerten

  • Fragestellung: Sind die Ausprägungen verschiedener Maße der Messgenauigkeit vergleichbar?

?

Yules Y, Phi, Kappa

Pearson-Korrelation


3 simulationsstudie anhand von sas markos

Bivariat Normalverteilt-Gleiche Randsummen

Dichotomisiert

Bivariat Rechtsteil-Ungleiche Randsummen

B1

B2

A1

a

b

Y/Kappa/Phi

Y/ Kappa/ Phi

Y/ Kappa/ Phi

SMC

A2

c

d

Zusammenhangsmaß

Korrelation

Y/ Kappa/ Phi

Q

Korrelation

Q

Phi

SMC

Phi

Zusammenhangsmaß

Korrelation

SMC

Kappa

Kappa

3. Simulationsstudie anhand von SAS-Markos

Zusammenhangsmaß


3 skalierung von kennwerten1

?

Yules Y, Phi, Kappa

Pearson-Korrelation

Keine Transformation für Intervallskalierung?

Fisher-Z Transformation für Intervallskalierung

‚In essence, this is a scaling problem‘ (Conger & Ward, 1984, S.307).

3. Skalierung von Kennwerten

Sind die Ausprägungen verschiedener Maße

der Messgenauigkeit vergleichbar?


3 unterschiede zwischen kennwerten

3. Unterschiede zwischen Kennwerten

  • Numerische Ausprägung, Skalierung, Wertebereich

  • ‚Operational-Meaning‘ (Goodmann & Kruskal, 1954) Interpretationskonzept ‚Proportional-reduction-in-error‘ (Costner, 1965) mit unterschiedlichen Fehlerkonzepten (Übereinstimmung vs. Distanzen).

  • Abhängigkeit von Randbedingungen (Messwertverteilung)

  • Etc.


4 kriterien der benutzbarkeit

Grundlagen

Skalierung

Interpretierbarkeit

4. Kriterien der Benutzbarkeit

  • Eindeutigkeit

  • Hohe Anwendungsbreite

  • Relevante Abhängigkeit

  • Unabhängigkeit von irrelevanten Einflüssen

  • Kriterien der Parameterschätzung

  • Positive und ganze Zahlen

  • Linearität zur Unit-in-Change

  • Intervallskalenniveau

  • Signifikante Einheiten

  • Relevanz

  • Unmittelbarer Bezug

  • Angabe der notwendigen Höhe

  • Maßeinheit

  • Erlernbarkeit

  • Vertrautheit

  • Eindeutige operationale Aussage

  • (Fehlerspezifisch)


Benutzbarkeit von testkennwerte j rg m m ller universit t t bingen

Formel

Messwertverteilung

Gesamter Messwertrange R

R = Range der Testscores

k = kritische Differenz

x2

x1

Kritische

Kritische

Kritische

Kritische

Kritische

Differenz k

Differenz k

Differenz k

Differenz k

Differenz k

5. Ausblick I: Alternative Skalierung: DifferenziertheitKonzept: Anzahl unterscheidbarer Messergebnisse


5 ausblick ii weiterf hrende fragen

5. Ausblick II: Weiterführende Fragen

1. Konzeptuell

  • Messgenauigkeit und Messsicherheit?

  • Anzahl Messergebnisse und die Unterscheidungssicherheit

    2. Theoretisch

  • Usability von Kennwerten und die Mentale Repräsentation von Zahlen bzw. kognitiver Modelle der Zahleninterpretation

    3. Empirisch

  • Welcher Bedarf nach Kennwerten besteht in der Praxis?


Diskussion

Diskussion

Vielen Dank für Ihre Aufmerksamkeit


1 eindeutigkeit vergleichbarkeit

1. Eindeutigkeit/Vergleichbarkeit

  • Erläuterung:‚Eindeutigkeit‘ verweist auf die Notwendigkeit einer algorithmischen Definition.

  • Beispiel: Phi-Koeffizient

  • Ursache: Randbedingungen

    • Null-Felder, Kontinuitätskorrektur, zeitlicher Abstand der Messwiederholung, etc.


2 hohe anwendungsbreite

2. Hohe Anwendungsbreite

Erläuterung: ‚Hohe Anwendungsbreite‘ verweist auf die Voraussetzungen (Skalenniveau, Verteilung, etc.) eines Kennwertes. Dies kann dazu führen, dass ein Kennwert nicht für alle auf dem Markt befindlichen Tests ermittelt werden kann. Hierdurch wird wiederum die Vergleichbarkeit von Tests eingeschränkt.


3 relevante abh ngigkeit

3. Relevante Abhängigkeit

Erläuterung: ‚Relevante Abhängigkeit‘ verweist auf Testaspekte, die in einem sinnvollen Zusammenhang mit dem intendierten Testaspekt stehen.

Beispiel: Zusammenhang der Messgenauigkeit mit der Testlänge.


4 unabh ngigkeit von irrelevanten einfl ssen

4. Unabhängigkeit von irrelevanten Einflüssen

Erläuterung:‚Irrelevante Einflüsse‘ verweist auf Faktoren, die nicht in einem sinnvollen Zusammenhang zum intendierten Testaspekt stehen.

Beispiel: Die Beeinflussung der Reliabilität durch die wahre Varianz.


5 kriterien der parametersch tzung

5. Kriterien der Parameterschätzung

Erläuterung:‚Kriterien der Parameterschätzung‘ beziehen sich auf die von Fisher aufgestellten Kriterien der Konsistenz, Suffizienz, Effizienz und Erwartungstreue.


6 positive und ganze zahlen

6. Positive und ganze Zahlen

Erläuterung: ‚Positive und ganze Zahlen‘ beziehen sich auf den Wertebereich des Kennwertes. Es wird dabei unterstellt, dass Dezimalbrüche leichter als ganze Zahlen fehlinterpretiert werden. In gleichem Sinne sind positiv Werte negativen vorzuziehen. Vor dieser Maßgabe ist der Wertebereich der Korrelation nicht optimal gestaltet (vgl. hierzu die Differenziertheit).


7 linearit t zur unit in change

7. Linearität zur Unit-in-Change

  • Erläuterung: ‚Linearität zur Unit-in-Change‘

  • Im Falle der Messgenauigkeit betrifft dies die Beziehung der Reliabilität zum Messfehler.

  • Im Falle der Übereinstimmung betrifft dies die Beziehung von Yules Y zur Veränderung der Zellhäufigkeit a bzw. d.

Korrelation/Reliabilität

Yules Y

Standardmessfehler

Freq (Zelle a)


8 intervallskalenniveau

8. Intervallskalenniveau

Erläuterung: ‚Intervallskalenniveau‘ verweist darauf, dass Differenzen zwischen Koeffizienten über den gesamten Wertebereich vergleichbar sind.

Beispiel: Die Korrelation muss Fisher-Z transformiert werden.


9 signifikante einheiten

9. Signifikante Einheiten

Erläuterung: ‚Signifikante Einheit‘ verweist darauf, dass Unterschiede zwischen zwei Tests nicht aufgrund von Zufallsschwankungen erklärt werden können.

Schlussfolgerung: Aus dieser Überlegung lässt sich umgekehrt eine Mindestumfang einer Normierungsstichprobe fordern. Hierdurch würde sichergestellt, dass Kennwerte ab eines praktisch bedeutsamen Unterschiedes auch statistisch signifikant verschieden sind.


10 relevanz

10. Relevanz

Erläuterung:‚Relevanz‘ verweist darauf, dass mit der Zunahme an Testaspekten eine Auswahl zwischen den Testkennwerten getroffen werden muss. Nicht alle Testaspekte sind gleich relevant bzw. bedeutsam aus der Sicht der Praxis.


11 unmittelbarer bezug

11. Unmittelbarer Bezug

Erläuterung:‚Unmittelbare Bezug‘ verweist darauf, dass ein Indikator eines Messaspekte nicht mittelbar bzgl. des Inhaltes verknüpft ist.

Beispiel: Die Reliabilität steht nur mittelbar in Beziehung zum Messfehler.


12 angabe der notwendigen h he

12. Angabe der notwendigen Höhe

Erläuterung: ‚Angabe der notwendigen Höhe‘ verweist darauf, dass ein Praktiker die zur Beantwortung einer diagnostischen Fragestellung notwendigen Testeigenschaft benennen kann.

Beispiel: ein Testanwender sollte im Falle eines Screenings eine geringen Messgenauigkeit (D=2) einfordern.

Hintergrund: In der Regel kann kein Aspekt maximiert werden (z.B. Messgenauigkeit), ohne einen anderen relevanten Aspekt (z.B. Aufwand der Testung) negativ zu beeinflussen. Entsprechend wiederspricht dieser Aspekt einem ‚je höher-desto besser‘.


13 ma einheit

13. Maßeinheit

Erläuterung: ‚Maßeinheit‘ verweist darauf, dass die Höhe eines Kennwertes nur dann interpretiert werden kann, wenn die Maßeinheit bekannt ist.

Beispiel: kein sinnvolle Maßeinheit Varianz der Messwerte im Falle der Reliabilität (vgl. hierzu die Differenziertheit mit ihrer ‚kritischen Differenz‘ als sinnvolle Maßeinheit).


14 erlernbarkeit

14. Erlernbarkeit

Erläuterung: ‚Erlernbarkeit‘ verweist auf Voraussetzung beim Testanwender, damit dieser den Kennwert angemessen interpretieren kann.

Beispiel: Bezüglich der Messgenauigkeit scheinen Kennwerte aus der KTT denen der IRT aus Sicht des Anwenders überlegen zu sein.


15 vertrautheit

15. Vertrautheit

Erläuterung: ‚Vertrautheit‘ verweist auf die Abwägung der Vorteile neuer Maße gegenüber der Bekanntheit etablierter Maße.

Hintergrund: Der Aufwand zur Ergänzung (vgl. Relevanz) bzw. Ersetzung bekannter Maße muss in einem vertretbaren Verhältnis stehen.


16 eindeutige operationale aussage fehlerspezifisch entscheidungsfehler

16. Eindeutige operationale Aussage (Fehlerspezifisch) - Entscheidungsfehler

Erläuterung: Der Aspekte der ‚eindeutigen operationale Aussage‘ (operational meaning; Goodmann & Kruskal, 1954) verweist im Kontext der Messgenauigkeit darauf, dass in der Diagnostik unterschiedliche Arten von Fehlern bedeutsam sein können (vgl. Nayman-Pearson-Kriterium).

Sensitivität (die Sicherheit der Diagnose einer vorhandenen Störung bzw. im metrischen Kontext der Überschätzung einer Fähigkeit) und die

Spezifität (die Sicherheit der ‚Gesund-Diagnose‘ bei tatsächlich fehlender Störung bzw. im metrische Kontext der Unterschätzung einer Fähigkeit).


2 kennwert personenunterscheidungsverm gen puv

Formel

2. Kennwert: Personenunterscheidungsvermögen (PUV)

Vollständiger Paarvergleich

Eine Normalverteilung zeigt eine 60 % Unterscheidungs- wahrscheinlichkeit

Eine Gleichverteilung zeigt eine 80 % Unterscheidungs-wahrscheinlichkeit


Puv praktisches beispiel

PUV: Praktisches Beispiel

Subskala ‚Unsicherheit‘ der Symptomcheckliste SCL-90-R (Derogatis, 1977; Franke, 1995; N=875)

Subskala ‚Resignation‘ des Stressverarbeitungsfragebogens für Kinder und Jugendliche (SVF-KJ; Hampel, Petermann & Dickow, 1999; N=1123)

r = 0.81

r = 0.81

PUV = 41.6 %

PUV = 30,6 %


  • Login