1 / 1

Jörg M. Müller Universität Tübingen

Interpretation und Vergleich der raschskalierten Personenparametervarianzen der englischen, deutschen und polnischen EPQ-R Versionen zur Überprüfung der Inhaltsvalidität. Jörg M. Müller Universität Tübingen http://www.joergmmueller.de/default.htm oder http://www.psychological-tests.de.

iman
Download Presentation

Jörg M. Müller Universität Tübingen

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Interpretation und Vergleich der raschskalierten Personenparametervarianzen der englischen, deutschen und polnischen EPQ-R Versionen zur Überprüfung der Inhaltsvalidität Jörg M. Müller Universität Tübingen http://www.joergmmueller.de/default.htm oder http://www.psychological-tests.de • Theoretischer Ansatz • Die Variabilität von Personen bildet sich nach einer Arbeit von Müller (2002) in den geschätzten Varianzen der Personenparameter des Raschmodells (Gleichung 1) ab. Entsprechend weisen verschiedene psychologische Eigenschaften i.d.R. verschiedene Variabilität auf, was schematisch in Abbildung 1 dargestellt ist. • Abbildung 1 Verschiedene Variabilität in verschiedenen Dimensionen. • Diese besondere Eigenschaft der raschskalierten Personenparameter lässt sich verschiedentlich nutzen (Müller, 2003), u.a. für eine Überprüfung der Inhaltsvalidität. • Inhaltsvalidität • Inhaltsvalidität (Fitzpatrick, 1983; Klauer, 1984) stellt ein zentrales Konzept innerhalb der Gültigkeitseinschätzung eines Persönlichkeitsfragebogens dar. Sie fassen Inhaltsvalidität als Repräsentativität der Itemstichprobe aus dem Universum einer (validen; Ergänzung des Autors) und theoretisch unendlichen Itemmenge auf. • Hypothese • Entsprechend dieser Auffassung und unter der Annahme, dass sich die vier Europäischen Nationen nur zufällig in ihrer Variabilität unterscheiden, sollten die vier durch den EPQ-R abgebildeten Skalen vergleichbare Rasch Varianzen aufweisen. • Daten • Zur Überprüfung dieser Hypothesen werden die Normierungsdaten von vier Operationalisierungen des EPR-R in den Sprachen Englisch (Eysenck & Eysenck, 1991)*, Deutsch (Ruch, 1999), Polnisch (Zawadzki,1995) und Spanisch (EPQ-RS; Aluja, García, & García, 2003 ) mit vier Software-Programmen (Winmira, BilogMG, Bigsteps, Parscale) reanalysiert . • Methode/Störeinflüsse auf die ‚Observed Rasch Variance‘ (ORS) • Die geschätzte Varianz der Personenparameter ist allerdings von einer Reihe von Einflussgrößer mit bestimmt, u. a. von: • SOFTWARE • MESSFEHLER • SCHÄTZALGORITHMEN • LINK-FUNKTION • BODEN-UND-DECKEN-EFFEKTE • Ziel der methodischen Überlegungen über die Einflussgrößen ist die Suche nach einem möglichst unverzerrten Schätzer der Personenparametervarianzen, welcher Vergleiche über die testspezifischen Besonderheiten hinaus erlaubt, sodass teststarke Prüfverfahren, wie der Homogenitätstests von Bartlett (1954; eine genauere Diskussion über Test zur Überprüfung gleicher Varianzen siehe Olejnik & Algina, 1988), herangezogen werden können. • 1. EINFLUSS DER SOFTWARE. Auf der Basis einer Simulationsstudie wurde Parscale für die Schätzung von Rasch Varianzen als ungeeignet eingestuft (vgl. Abbildung 2). • Abbildung 2 • 2. EINFLUSS DES MESSFEHLERS. Bereits Lord (1983) hat den geschätzten Personenparameter als Summe eines wahren Wertes und eines Fehlerterms im Sinne der Klassischen Testtheorie aufgefasst. Gleichung 2: Entsprechend setzt sich die beobachtete oder ‘Observed Rasch Variance’ (ORV) aus der Varianz der wahren oder ‘True Rasch Variance’ (TRV) sowie einer Error Rasch Variance (ERV) zusammen. Geschätzt werden die ORV sowie das Verhältnis TRV/ORV (=Reliabilität). Die TRV ist damit unabhängig vom Messfehler bestimmbar (vgl. Abbildung 3), da TRV=ORV*Rel. Die Wahl des Reliabilitätsschätzer ist allerdings von Bedeutung (vgl. Abbbildung 4), da Cronbach‘s Alpha und die aus den IRT-Softwareprogrammen angegebene Reliabilität durchaus voneinander abweichen können. 3. EINFLUSS DER SCHÄTZALGORITHMEN. Eine Vielzahl von Simulationstudien (z. B. Hoijtink & Boomsma, 1993, 1995, 1996; Kim & Nicewander, 1993; Warm, 1989) konnten systematische Verzerrungen der Schätzmethoden auf die ORS nachweisen. Eigene Auswertungen zeigen nur einen relativ schwachen Einfluss. 4. EINFLUSS DER LINK-FUNKTION. Je nach verwendeter Software muss eine Adjustierung von der Normal-Ogive auf die logistische Funktion durchgeführt werden. Für die eigene Studie wurde für bestimmte BilogMG Programme eine entsprechende Korrektur vorgenommen. 5. EINFLUSS VON BODEN-UND-DECKENEFFEKTEN. Über die standardisierten Indikatoren Schiefe und Kurtosis sollten Verzerrungen entsprechend den Abbildungen 5a,b,c ermittelt und korrigiert werden. Diese Korrekturmethode wurde entwickelt, jedoch aufgrund des unreliablen Kurtosisindikators bei den Analysen nicht angewendet. ERGEBNIS Die TRV der vier Skalen für die vier Sprachvarianten des EPQ-R finden sich in Abbildung6a,b. Diskussion Die TRV in Abbildung 6a sprechen nicht gegen eine gelungene Übersetzung des EPQ-R mit Ausnahme der polnischen Version. Die TRV in Abbildung 6b geben zum Teil Hinweise über Verbesserungen der Skalen zur Angleichung der inhaltlichen Validität. Ausblick Zukünftig soll der Einfluss der Schwierigkeits- und Trennschärfeparameter auf die TRS genauer untersucht werden. Vorbereitung hierzu sind bereits erfolgt. Literatur Aluja, A., García, Ó. ,& García, L.F. (2003). Dimensionality of the EPQ-RS: Structure equation modeling analysis. Personality and Individual Differences, 35 (2), 449-460. Eysenck, H. J. & Eysenck, S. B. G. (1991) Manual for the EPQ-R. Sevenoaks: Hodder and Stoughton. Müller, J. M. (2002a). Unterschiedliche Variationen in psychologischen Eigenschaften - eine Interpretation der Erstreckung einer Raschskalierung. Zeitschrift für Differentielle und Diagnostische Psychologie, 23, 261-271. Müller, J. M. (2002b). The contribution to interpret rasch variance to personality psychology. The 11th European Conference on Personality of the European Association of Personality Psychology Jena vom 21.- 25. Juli 2002. Müller, J. M. (2003). Nutzen für die psychologische Diagnostik aus der Interpretation geschätzer raschskalierter Personenparametervarianzen. Positionsreferat auf der 7. Arbeitstagung der Fachgruppe Differentielle Psychologie, Persönlichkeitspsychologie und Psychologischen Diagnostik in Halle. Ruch, W. (1999). Die revidierte Fassung des Eysenck Personality Questionnaire und die Konstruktion des deutschen EPQ-R bzw. EPQ-RK. Zeitschrift für Differentielle und Diagnostische Psychologie, 20(1), 1-24. Zawadzki, B. (1995). [The universal validity of psychoticism, extraversion, and neuroticism as the 3 superfactors of personality: The psychometric characteristics of the Polish adaptation of the Eysenck Personality Questionnaire--Revised (EPQ--R)]. Studia Psychologiczne, Vol 33(1-2), 147-188. Gleichung1 Abbildung 4: Die Wahl des Reliabilitätsschätzers ist nicht unerheblichZusammenhang zweier empirischer Reliabilitätsschätzungen Abbildung 3: Die Reliabilität beeinflusst die ORV, aber nicht die TRVBeispiel des SPM (N=1500) OPP RawS Rasch Varianzen Personen Zufällig Itemreduktion Reliabilitäten der IRT-Software Personparameter ORV Spearman Korrelation r = 0.75 s. (N=466) TRV 0.0 0.25 .5 0.75 1.0 0.5 1.0 1.5 2.0 Erwartet Erwartet Cronbach Cronbachs Alpha 10 20 30 40 50 60 Anzahl an Items 0.0 0.25 .5 0.75 1.0 BODEN-UND-DECKEN Effekte auf die SCHIEFE BODEN-UND-DECKEN Effekte auf die KURTOSIS BODEN-UND-DECKEN Effekte auf die STANDARDABWEICHUNG Abbildung 6. EPQ-R(S) Variationsunterschiede (Winmira) a) Alle Items b) Skalen um Q-INDEX auffällige Items reduziert Spanisch (N=1006, 38 Items) Deutsch (N=2554, 64 Items) Deutsch (N=2554, 102 Items) Spanisch (N=1006, 48 Items) TRV TRV TRV TRV 0 1 2 3 0 1 2 3 0 1 2 0 1 2 Ex Ne Ex Ne Lü Ps Lü Ps Ex Ne Ex Lü Ne Ps Lü Ps Einfluss der verwendeten Software: SimulationsstudieTRS 0.25 bis 4.00 (.25); N=1000; Items=20 Englisch (N=1434, 82 Items) Polnisch (N=1414, 60 Items) Englisch (N=1434, 100 Items) Polnisch (N=1414, 90 Items) TRV TRV geschätze TRS_est TRV TRV Erwartet 0 1 2 3 0 1 2 3 0 1 2 0 1 2 Bigsteps ca. 1. Std-abw. Relevanter Bereich für reale Testverfahren Winmira Ex Ne Ex Lü Ne Ps Lü Ps Ex Lü Ne Ps Ex Lü Ne Ps BilogMG Parscale Wahre TRS * Mein Dank an P. Barrett, W. Ruch, A. Aluja und P. Brzozowski und R. Horn von Swets für die Daten. 6. Tagung der Fachgruppe Methoden und Evaluation, Wien 2003

More Related