Deskriptive Statistik

2 Deskriptive Statistik 2.1 Darstellung univariater Stichproben 2.2 Darstellung bivariater Stichproben 2.3 Kennwerte univariater Verteilungen 2.4 Kennwerte bivariater Verteilungen

2 • Aufgaben der deskriptiven Statistik: - übersichtliche Darstellung großer Datenmengen - Erkennen von Gesetzmäßigkeiten - Vorbereitung zur theoretischen Überprüfung (schließende Statistik) • Mittel der deskriptiven Statistik: - Tabellen - Graphiken - Kennwerte der empirischen Verteilungen - Kennwerte des bivariaten Zusammenhangs • univariate und bivariate Betrachtungen: Deskriptive Statistik univariat bivariat

2 • 1. Differenzierungsmerkmal empirischer Daten: Skalenniveau - Nominalskala - Ordinalskala - Intervallskala - Rationalskala • 2. Differenzierungsmerkmal empirischer Daten: “spezielle Genauigkeit“ - singuläre Daten: - alle erfassten Daten unterschieden sich voneinander - z.B. metrische Daten mit hoher Messgenauigkeit oder ordinalskalierte Daten mit einfach besetzten Klassen - jeder Wert besitzt die absolute Häufigkeit = 1 - gruppierte Daten: - Wiederholung gleicher Messwerte oder Zusammenfassung zu Klassen (Kategorien, Rangplätze, Messwerte) - absolute Häufigkeiten  1 - singuläre Daten mit Bindung: - prinzipiell unterschiedliche Messwerte, aber durch Rundungen gleiche Werte - auch bei Transformation von metrischen zu ordinalskalierten Daten - Unterscheidung: separate Rangplätze mittlere Rangplätze - abhängig vom statistischen Verfahren Deskriptive Statistik

2.1 • Urliste: Ergebnis der Registrierung der Beobachtungsdaten (meist unübersichtlich): Darstellung univariater Stichproben Bsp. 1: Verkehrsmittel von deutschen Urlaubern (n=100) nominalskaliert  metrisch, singulär mit Bindungen  Bsp. 2: Körpergröße von 10-jährigen (n=200)

2.1 • einfachste Form der statistischen Analyse: absolute Häufigkeiten (z.B. Strichliste): • erste Strukturen erkennbar, aber im rechten Fall immer noch zu unübersichtlich • graphische Darstellung gefordert: je nach Fragestellung Darstellung univariater Stichproben

2.1 • gebräuchlichste Form der graphischen Darstellung ist Histogramm: - x-Achse: Merkmalsausprägungen - y-Achse: absolute Häufigkeit Darstellung univariater Stichproben  Stabdiagramm  zweidimensionales  Histogramm  dreidimensionales  Histogramm Pfeilspitzen nur bei metrischen Daten

2.1 • je nach Fragestellung werden auch relative Häufigkeiten eingetragen: - z.B. beim Vergleich von zwei Stichproben unterschiedlicher Größe - Berechnung: - im Histogramm oder Kreisdia- gramm Darstellung univariater Stichproben m = Anzahl der Klassen n = Anzahl der Probanden relative Häufigkeit in % • bei relativen Häufigkeiten Vorsicht bei Interpretation geboten: - absolute Änderungen maskiert durch unterschiedlichen STP-Umfang - z.B. Busreisen absolut mehr, aber Marktanteil rückläufig

2.1 • bei Histogrammen können Koordinatenachsen auch vertauscht werden: - x-Achse: aboslute Häufigkeit - y-Achse: Merkmalsausprägungen - z.B. Alterspyramide Darstellung univariater Stichproben 1985 1990 Bahn Bus PKW Flugzeug Sonstige 100% 0 100%

2.1 • bei stetigen metrischen Variablen müssen Messwertklassen für die Darstellung von Häufigkeiten gebildet werden: - Klassengrenzen und -anzahl zunächst beliebig - Verbindung der Klassenmitten/-grenzen heißt Häufigkeits-/Summenpolygon - Wahrscheinlichkeit entspricht Flächeninhalt im Histogramm, nicht Höhe - häufig auch Darstellung der kumulativen Häufigkeiten Darstellung univariater Stichproben Messwertklassen kumulativ Polygon Summen- polygon

2.1 • Wahl der Klassen hat häufig Einfluss auf die weitere Analyse und Interpretation: - keine allgemeingültige Festlegung, aber Orientierungen • Gruppierung metrischer Daten: - untere Grenze der Klasse xi: xi,u - obere Grenze der Klasse xi: xi,o - Obergrenze der einen Klasse entspricht Untergrenze der nächst höheren Klasse, und andersherum: xi,o= xi+1,u ; xi,u= xi-1,o - Klassenmitte: x*i = (xi,u + xi,o)/2 - Klassenbreite: bi = xi,o – xi,u , bi = const(i\r) - offene Randklassen: xiru: xi,u = - ; xiro: xi,o =  - Leerklassen: xi: hi = fi = 0 Darstellung univariater Stichproben

2.1 • Wahl der Klassenbreite b: - Problem bei zu großer Klassenbreite: Charakteristik der Verteilung wird verwischt - Problem bei zu kleiner Klassenbreite: Gruppierung zu unübersichtlich - Kriterium 1: - Kriterium 2: • Wahl der Reduktionslage x1,u: - eindeutiger Fall: xmin = 0 , x  [0,]  x1,u = 0 - kein eindeutiger Fall: bekannte Eigenschaften der Verteilung berücksichtigen (Symmetrie, keine Werte auf Klassengrenzen) - Algorithmus nach Lienert: Darstellung univariater Stichproben n = Anzahl der Messwerte d = Genauigkeit der Messung xmin = kleinster Messwert xmax = größter Messwert a) Bestimmung von k: b) Bestimmung von b: c) b wird so gerundet, dass es nicht genauer als die Messwerte ist d) Hilfsgröße:

2.1 e) Reduktionslage für mod(Δ,d)=0: Reduktionslage für mod(Δ,d)≠0: f) in der Folge gilt: g) Überprüfung auf besetzte Randklassen: Δ < b für mod(Δ,d)=0 Δ < b-d für mod(Δ,d)≠0 h) wenn diese Nebenbedingungen nicht erfüllt, Iteration mit k-1 Darstellung univariater Stichproben • Beispiel: n = 83 xmin = 7 xmax = 23 d = 1 Klassenanzahl: Klassenbreite: Hilfsgröße: Randklassen überprüfen: Reduktionslage: hk 7,5 9,5 11,5 13,5 15,5 17,5 19,5 21,5 23,5 Klassenmitte

2.1 • typische Verteilungsformen (Häufigkeitspolygone): Darstellung univariater Stichproben a) glockenform, eingipflig, zufällige Streuung um Mittelwert (sehr häufig) b) U-förmig, bei Häufung von Extremwerten (polarisierende Meinungsumfrage) c) L-förmig, kleiner Extremwert häufig, dann monoton abfallend (Lebensdauer von Glühlampen) d) J-förmig, großer Extremwert häufig, davor monoton ansteigend e) linksschief, eingipflig, Asymmetrie bei positiv definiten Variablen (Niederschlag) f) zweigipflig, häufig bei Mischverteilungen (Größe von 10- und 20-jährigen) g) schmalgipflig, geringe Streuung um einen zentralen Wert h) breitgipflig, starke Streuung um einen zentralen Wert

2.2 • wenn für jedes Untersuchungselement zwei Variablen X und Y erhoben werden, entstehen bivariate Verteilungsfunktionen (Zusammenhang!): • absolute Häufigkeiten der bivariaten Merkmalsausprägung in Kon- tingenztafel: Darstellung bivariater Stichproben

2.2 • unterschiedliche Formen der zwei- und dreidimensionalen Darstellung von bivariaten Verteilungen: - geometrische Körper, Anzahl der Punkte oder proportionale Flächen • bei bivariaten Verteilungen von stetigen metrischen Variablen ist Darstellung mit gruppierten Histogrammen eher unüblich • stattdessen Darstellung der Messergebnisse als Punktwolken: aus der Punktwolke läßt sich bereits optisch auf einen möglichen Zusammenhang zwischen X und Y schließen (quantitativ: Korrelationsrechnung) Darstellung bivariater Stichproben nichtlineare Korrelation

2.2 • weitere häufige Darstellungsform sind Isolinien der Häufigkeit (Isoplethen): - hier bivariate Verteilung von Windrichtung (X) und Windgeschwindigkeit (Y) - auch Randverteilungen von X und Y eingezeichnet Darstellung bivariater Stichproben Y X

2.3 • meist kennzeichnen einige wenige statistische Maßzahlen die Verteilung einer Variablen: - Parameter der Verteilung - Vorteil: Übersichtlichkeit - Nachteil: Verlust an Informationen • wichtigste Parameter (Momente) einer Verteilung: 1. Mittelwertmaß (Lageparameter) 2. Streumaß (Streuparameter) 3. Schiefe (Asymmetrie) 4. Exzess (Wölbung, Kurtosis) • je nach Skalenniveau und Verteilung unterschiedliche Mittelwerte und Streumaße zu wählen Kennwerte univariater Stichproben fi xi

2.3 • Mittelwerte: - physikalisch: Massenschwerpunkt - statistisch: Wert, der am häufigsten auftritt bzw. die höchste Wahrscheinlichkeit besitzt - Definition: Kennzeichnung der zentralen Tendenz einer univariaten Verteilung • Modalwert (Modus) D: - Name bzw. Wert der Kategorie mit der größten Häufigkeit (Nominalskala) - häufigster Messwert einer diskreten metrischen Verteilung (Messgenauigkeit) - häufigste Klasse einer stetigen metrischen Verteilung (gruppierte Daten) - bei mehrgipfligen (bimodalen) Verteilungen Mittelwert (benachbarte Maxima), Mehrfachnennung (nicht benachbarte Maxima) oder keine Angabe - direkt aus Häufigkeitsverteilung abzulesen - sehr sensitiv gegenüber geringen Veränderungen des empirischen Materials - insensitiv gegenüber Ausreißern Kennwerte univariater Stichproben fi fi ?

2.3 • Bsp. Modalwert: Kennwerte univariater Stichproben D : “PKW“ D : 150 D : 13,5 D1 : 12 D2 : 15

2.3 • Median (Zentralwert) Z: - nur für Daten mit interner Rangfolge (nicht für Nominalskala) - derjenige Wert, der die Rangreihe halbiert - bei mod(n,2)≠0 : Beobachtungswert auf Rangplatz - bei mod(n,2)=0 : Mittel der Beobachtungswerte auf Rangplätzen - angepasster Mittelwert für Ordinalskala - insensitiv gegenüber Ausreißern (bei kleinem STP-Umfang empfohlen) • Bsp. Median: Kennwerte univariater Stichproben Z : 9,25 h Z : zwischen Wert von Beate und Georg Z : “Steffi“

2.3 • bei Daten mit Mehrfachnennungen in Klassen gleiches Vorgehen: Bestimmung der Medianklasse: - absolute Häufigkeiten und kumulierte Häufigkeiten bilden - Zuordnung der Rangplätze zu jeder Klasse - Bestimmung des Medianrangplatzes (hier: 30,5) - Bestimmung der Medianklasse (hier: Klasse 5) - bei Klassen mit Zahlenangaben auch genaue Abschätzung möglich unter der Annahme der Gleichverteilung der Werte innerhalb der Klasse: Kennwerte univariater Stichproben Klassenmittel:  Z=14 xm,u : untere Klassengrenze der Medianklasse (hier: 12,5) b : Klassenbreite (hier: 3) n : STP-Umfang (hier: 60) ncm-1 : kumulative Häufigkeit der Klasse vor der Medianklasse (hier: 27) nm : absolute Häufigkeit der Medianklasse (hier: 15)  Z=13,1

2.3 • arithmetisches Mittel x: - nur für metrische Daten - singuläre Messwerte: - mehrfach vorliegende Messwerte: (gewichtetes Mittel) - Messwertklassen ohne offene Randklassen näherungsweise: (sonst x*1 = - bzw. x*k = ) • Bsp. arithmetisches Mittel: n : STP-Umfang xi : Messwerte hi : absolute Häufigkeiten fi : relative Häufigkeiten k : Anzahl der Klassen x*i : Klassenmitten Kennwerte univariater Stichproben x=2,0 n=6 x=17,1 n=141 x=101,2 n=139

2.3 • arithmetisches Mittel skaliert bei linearen Tranformationen mit: - hilfreich bei manueller Berechnung • die Summe der Abweichungen (Anomalien) der Werte vom arithmetischen Mittel ist immer null: • die Summe der Quadratdifferenzen der Werte vom arithmetischen Mittel ist immer kleiner oder gleich der Summe der Quadratdifferenzen zu jedem beliebigen Wert a: Kennwerte univariater Stichproben lineare Transformation yi = 2 • xi + 1 x=2,0 x=5,0

2.3 • arithmetisches Mittel einer Gesamt-STP kann auch direkt aus den gewich-teten arithmetischen Mitteln von Teilmengen der STP berechnet werden: • Lage von Modus, Median und arithmetischem Mittel bei symmetrischen und asymmetrischen Verteilungen: - bei symmetrischen, unimodalen Verteilungen fallen alle drei Mittelwertmaße zusammen - bei asymmetrischen Verteilungen durchaus starke Unterschiede - Median immer zwischen Modus und arithmetischem Mittel Kennwerte univariater Stichproben n : STP-Umfang k : Anzahl der Teilmengen (Klassen) hi : Anzahl der Objekte in der Teilmenge xki : Teilmittelwerte x : Gesamtmittelwert mittlerer Niederschlag über Land (149 Mio km2): 900 mm mittlerer Niederschlag über Wasser (361 Mio km2): 1050 mm mittlerer Niederschlag auf der Erde (510 Mio km2): 1006 mm linksschief rechtsschief

2.3 • Vergleich von Modus, Median und arithmetischem Mittel: - Modus: - sehr anschaulich - häufigster (“normaler“) Wert - z.B. normalerweise 2h Fahrzeit - bei gleichverteilten Verteilungen sinnlos - bei mehrgipfligen Verteilungen mehrdeutig - Median: - anschaulich - Vorstellung des Zentrums in einem Datenkollektiv - mittig in asymmetrischen Verteilungen - arith. Mittel: - von allen Messwerten beeinflusst - sehr sensitiv gegenüber Ausreißern - nicht immer eindeutig zu interpretieren Kennwerte univariater Stichproben fi Fahrtzeit mit der DB D=2h Z=3h x=4h

2.3 • in den Geowissenschaften wird sehr häufig auf das arithmetische Mittel zurückgegriffen • gleichzeitig sind viele Größen asymmetrisch verteilt (z.B. Pendler-entfernungen, Niederschlag): rechtsschief • deshalb existieren Transformationen, die die Messwerte in eine symmetrische Verteilung überführen: - Mittelwert auf Basis der transformierten symmetrischen Daten berechnen - Mittelwert anschließend zurücktransformieren - nur bei Rationalskala und bei xi > 0 - hyperbolische Transformation: - logarithmische Transformation: - auch wichtig für Verfahren der schließenden Statistik Kennwerte univariater Stichproben “Harmonisches Mittel“ “Geometrisches Mittel“

2.3 • je nach Datenart sind nur bestimmte Mittelwertmaße zugelassen: Kennwerte univariater Stichproben

2.3 • Streumaße: - Maßzahlen zur Bewertung der Variabilität der Messwerte - Indikator der Breite einer Verteilung - wichtige Zusatzinformation zum Mittelwert (Lageparameter) - auch Information über Einfluss des Zufalls oder von Kovariablen - je nach Datenniveau unterschiedliche Streumaße • Variationsbreite (Spannweite): - nur für metrische Variablen - nur abhängig von den Extremwerten der STP: extrem sensitiv - meist nur für kleine STP (n ≤ 12), da Ausreißer unwahr- scheinlicher Kennwerte univariater Stichproben xmin v=157-126=31 xmax

2.3 • mittlere absolute Abweichung: - nur für metrische Variablen - berücksichtigt alle Werte der STP - heute kaum noch verwendet wegen der Betragsoperation - manchmal auch Differenz gegenüber dem Median gewählt: Kennwerte univariater Stichproben x = 2,0 e = 0,53 Z = 2,0 ez = 0,53

2.3 • empirische Varianz: - nur für metrische Variablen - mittlere quadratische Abweichung vom arithmetischen Mittel mit Einheit U2 - gebräuchliches Streumaß (mathematisch zugänglich, binomische Formel) - sehr sensitiv gegenüber Ausreißern (gehen zum Quadrat ein) • empirische Standardabweichung: - nur für metrische Variablen - mittlere Abweichung vom Mittelwert - gebräuchlichstes Streumaß - Nenner (1 - n) kennzeichnet STP-Streumaß (“unverzerrter Schätzer“) Kennwerte univariater Stichproben x = 2,0 s2 = 0,41 SS = 2,04 s = 0,64

2.3 • Variationsbreite versus empirische Standardabweichung: - Variationsbreite: maximaler Schwankungsbereich der Werte - Standardabweichung: mittlerer Schwankungsbereich der Werte Kennwerte univariater Stichproben Variationsbreite Standardabweichung Variabilität der täglichen Mitteltemperaturen im Januar und Juli

2.3 • bei manueller Berechnung ist folgende Formel für die Quadratsumme praktikabler: • bei einer linearen Transformation der Daten skaliert die Standard-abweichung mit b, ist aber invariant gegenüber a: Kennwerte univariater Stichproben lineare Transformation

2.3 • Quadratsumme bei mehrfach auftretenden Messwerten: • Quadratsumme bei Messwertklassen ohne offene Randklassen näherungsweise: • Werte innerhalb der Messwertklassen meist schief verteilt, so dass Klassenmitte nicht repräsentativ und empirische Standardabweichung s zu groß; deshalb Sheppard‘sche Korrektur (empirisch): • Beispiel: Kennwerte univariater Stichproben n : STP-Umfang xi : Messwerte hi : absolute Häufigkeiten k : Anzahl der Klassen x*i : Klassenmitten x* : arithmetisches Mittel der Klassenmitten

2.3 • in der Praxis häufig mehrere Stichproben jeweils mit Mittelwert und Varianz: geeignete Maßzahl für globales Streuen der Messwerte in den l Stichproben gesucht • 1. Möglichkeit: mittlere empirische Varianz • Beispiel: Kennwerte univariater Stichproben alle STP gleich groß: ni : Umfang der STP i xi : Mittelwert der STP i si2 : Varianz der STP i STP unterschiedlich groß:

2.3 • 2. Möglichkeit: empirische Gesamtvarianz unter Berücksichtigung aller Werte mit ihrer absoluten Lage • Beispiel: • Gesamtvarianz ist immer größer oder gleich der mittleren Varianz der l STP Kennwerte univariater Stichproben ni : Umfang der STP i xi : Mittelwert der STP i si2 : Varianz der STP i

2.3 • empirischer Interquartilsbereich, empirischer Quartilsabstand: - für metrische und ordinale Variablen - auf Basis einer der Größe nach geordneten Datenreihe - wesentlich robuster gegenüber Ausreißern als Varianz / Standardabweichung - Aufteilung der Datenreihe in 4 gleich große Kompartimente: - genaue Lage häufig nicht eindeutig festgelegt, da zwischen zwei Messwerten oder Rangplätzen - bei Messwerten mit Wiederholung u.U. gar keine sinnvolle Festlegung möglich - hier nur singuläre Daten berücksichtigt - Intervall zwischen Q1 und Q3 heißt empirischer Interquartilsbereich - bei metrischen Daten heißt (Q3-Q1) auch empirischer Quartilsabstand Kennwerte univariater Stichproben Q1 : unteres Quartil = Abgrenzung der 25% der kleinsten Werte Q2 : Median = Abgrenzung von 50 % der Werte Q3 : oberes Quartil = Abgrenzung der 25% der größten Werte

2.3 • allgemeine Bestimmung der Quartile: - Bestimmung des Medians: - Bestimmung des unteren Quartils durch Halbierung zwischen kleinstem Datenwert und Median: - Bestimmung des oberen Quartils durch Halbierung zwischen Median und größtem Datenwert: - wenn Rangplätze R nicht ganzzahlig, folgende Interpolation für Quartile Q: Kennwerte univariater Stichproben Q : Quartil RQ : berechneter nicht ganzzahliger Rangplatz von Q Ru : ganzzahliger Rangplatz unterhalb von RQ Ro : ganzzahliger Rangplatz unterhalb von RQ xu : Messwert auf Rangplatz Ru xo : Messwert auf Rangplatz Ro

2.3 • Beispiel für die Bestimmung von Quartilen und Quartilsabstand: • Darstellung der Quartile in so genanntem Boxplot: - zum direkten optischen Vergleich von Messergebnisreihen • Beispiel: Kennwerte univariater Stichproben

2.3 • bei metrischen Daten wird der halbe empirische Quartilsabstand als Streumaß angegeben: • Beispiel: • bei metrischen gruppierten Daten wird der halbe Quartilsabstand bzgl. Klassen berechnet: Kennwerte univariater Stichproben q1 : Nummer der (unteren) Quartilklasse von Q1 q3 : Nummer der (oberen) Quartilklasse von Q3 xq1,u : untere Klassengrenze der Q1-Klasse xq3,u : untere Klassengrenze der Q3-Klasse nq : Häufigkeit in der jeweiligen Quartilklasse nc,q-1: kumulative Häufigkeit in der Klasse q-1 b : Klassenbreite Q1* : trennt die ersten 25% der Histogrammfläche ab Q3* : trennt die letzten 25% der Histogrammfläche ab

2.3 • bei ordinalen gruppierten Daten ist das Streumaß der Unterschied zwischen den Beobachtungswerten der Q1- und Q3-Klasse: • Beispiel: Klassifizierung der Stürme Kennwerte univariater Stichproben große Streuung: Q1 und Q3 fallen in die Randklassen kleine Streuung: Q1 und Q3 fallen in die gleiche Klasse } Q1 fällt in die Klasse “stark“ Q3 fällt in die Klasse “schwach“ die wesentliche Streuung erfolgt zwischen “stark“ und “schwach“

2.3 Kennwerte univariater Stichproben • Begriff der Quartile läßt sich verallgemeinern: - Quantile: allgemeine Verteilungsmaße - Quartile: Viertel (25%, 50%, …) - Pentile: Fünftel (20%, 40%, …) - Dezile: Zehntel (10%, 20%, …) - Zentile: Hundertstel (1%, 2%, …) - Perzentile: “ • graphisch anhand von kumulierten Häufigkeitsverteilungen (Verteilungs- funktionen) zu veranschaulichen:

2.3 • relativer Informationsgehalt h: - für kategoriale Variablen (Nominalskala) - Maßzahl für die Verteilung der Beobachtungswerte auf die Kategorien - für h=0 gilt, dass alle Werte in der gleichen Kategorie liegen - für h=1 gilt, dass sich alle Werte gleichmäßig auf die Kategorien aufteilen (völlige Streuung) - bei einem großen h bestehen folglich geringe Unterschiede bzgl. der Häufig- keit zwischen den Kategorien • wegen der grundsätzlich beliebigen Anordnung der Kategorien ist h kein Maß für die Streuung um einen Zentralwert (Modus) Kennwerte univariater Stichproben k : Anzahl der Kategorien N : Gesamtzahl der Daten ni : absolute Häufigkeit jeder Kategorie

2.3 • Beispiel: “richtiges Symbol in Zeichenkette“ Kennwerte univariater Stichproben Zeichenkette: Elementtypen: ? Schüler 2. Klasse: 4 5 2 6 3 Schüler 4. Klasse: 1 0 1 18 0 Modalwert: D2. Klasse = D4. Klasse = • Schüler der 4. Klasse zeigen klare Ungleichverteilung zugunsten des richtigen Symbols: Vergleichsmaß für Streuung bei nominalverteilten Variablen

2.3 • je nach Datenart sind nur bestimmte Streumaße zugelassen: Kennwerte univariater Stichproben

2.3 • bei Nominal- und Ordinalskala ist Wahl des Streumaßes eindeutig • bei metrischen Daten hängt Wahl des Streumaßes von der Fragestellung ab: - Variationsbreite kennzeichnet zwar gesamten Wertebereich, ist aber sehr sensitiv gegenüber Ausreißern - Quartilsabstand ist zwar insensitiv gegenüber Ausreißern, berücksichtigt aber nur ca. 50 % der Daten - Standardabweichung berücksichtigt alle Daten, ist aber weniger anschaulich • bei normalverteilten Variablen sind arithmetisches Mittel und Standard-abweichung am besten geeignet und auch anschaulich: - typische Verteilung in den Geowissenschaften für zufällige Streuung um Mittelwert (Glockenkurve) Kennwerte univariater Stichproben x = Z = D : genau in der Mitte der symmetrischen Verteilung x ± 1•s : schließt ca. 68,0 % der Werte ein x ± 2•s : schließt ca. 95,5 % der Werte ein x ± 3•s : schließt ca. 99,7 % der Werte ein  Näherungsformel für große normalverteilte STP:

2.3 • häufig lineare Transformation der Daten durch Umrechnung der Einheiten: - Meilen → Kilometer , m/s → km/h , °C → °F , … - Skalierung des Mittelwertes: - Skalierung der Standardabweichung: • um die Form von Verteilungen zu vergleichen, werden Stichproben häufig standardisiert: - lineare Transformation der Form zi = b• xi +a - danach besitzen alle STP den gleichen Mittelwert (=0) und die gleiche Standard- abweichung (=1) - Beispiel: Kennwerte univariater Stichproben

2.3 • in anderen Fällen interessiert gerade die Standardabweichung im Verhältnis zum Mittelwert: - empirischer Variationskoeffizient: - bei insgesamt kleineren Werten fällt eine konkrete Standardabweichung mehr ins Gewicht Kennwerte univariater Stichproben

2.3 • Beispiel Variationskoeffizient: Niederschlagszeitreihen in Nordafrika Kennwerte univariater Stichproben

2.3 • empirische und theoretische Häufigkeitsverteilungen werden neben dem Mittelwert und der Standardabweichung noch durch weitere Maßzahlen charakterisiert: - Momente (Potenzmomente): - zentrale Momente: - arithmetischer Mittelwert entspricht dem ersten Moment m1 - Varianz entspricht annähernd dem zweiten zentralen Moment mz2 - es gilt grundsätzlich mz1=0 - Schiefe als Formparameter der Asymmetrie steht im Zusammenhang mit drittem zentralen Moment: - Exzess als Formparameter der Wöl- bung steht im Zusammenhang mit viertem zentralen Moment: Kennwerte univariater Stichproben fi xi

2.3 • zur Schiefe S: - für symmetrische Verteilungen gilt S=0 - bei S > 0 heißt die Verteilung positiv schief oder linkssteil - bei S < 0 heißt die Verteilung negativ schief oder rechtssteil - vereinfachte Rechenformel zur qualitativen Bestimmung der Schiefe: • zum Exzess E: - für die Normalverteilung gilt E=0 (Mesokurtosis) - bei E >0 spricht man von positivem Exzess (Leptokurtosis) - bei E < 0 spricht man von negativem Exzess (Platykurtosis) - vereinfachte Rechenformel zur qualitativen Bestimmung des Exzesses: Kennwerte univariater Stichproben Q1 : unteres Quartil Q3 : oberes Quartil De1 : unteres Dezil De9 : oberes Dezil

Deskriptive Statistik

Deskriptive Statistik

Presentation Transcript

Deskriptive Statistik und Explorative Datenanalyse

Deutsches Institut Deskriptive Sprachwissenschaft

Deutsches Institut Deskriptive Sprachwissenschaft

Statistik

Statistik

STATISTIK

Tutorat Deskriptive Statistik und Wahrscheinlichkeitstheorie

STATISTIK

Statistik

Statistik

Zur Wirksamkeit von Practice Tests am Beispiel der Klausur Deskriptive Statistik

STATISTIK

Statistik

26.05.05 Datentransformation und deskriptive Statistik I

Deskriptive Statistik Grundbegriffe

Datenanalyse und deskriptive Statistik

statistik

Statistik

Statistik

Statistik

Statistik

Statistik