Wahrscheinlichkeitstheorie

Wahrscheinlichkeitstheorie

Literatur • Hans Irtel Entscheidungs- und testtheoretische Grundlagen der Psychologischen Diagnostik Frankfurt am Main: Verlag Peter Lang, 1996 (ISBN 3-631-49374-6) im Web als PDF

Gliederung • Mengenlehre • Wahrscheinlichkeitsraum • Bedingte Wahrscheinlichkeiten • Zufallsvariablen • Kombinatorik • Wahrscheinlichkeitsverteilungen

Warum brauchen wir die Wahrscheinlichkeitstheorie? • Psychologische Daten unterliegen vielen Einflußgrößen, viele davon sind nicht kontrollierbar. • Eine Wiederholung einer Erhebung liefert nicht mit Sicherheit das gleiche Ergebnis. • Bei einem guten Test reproduzibel: Statistische Daten (Mittelwerte, Streuungen)

Warum brauchen wir die Mengenlehre? • Wahrscheinlichkeitsberechnungen beruhen auf dem Vergleich der Mächtigkeit von Mengen.

Mengenlehre I • Naive Mengenlehre (Cantor) • Eine Menge ist eine Zusammenfassung von bestimmten wohl unterschiedenen Objekten (Elementen) • Schreibweisen: M = {a,b,c...}, M={xN|x>7},  • Teilmenge: AB  (xAxB), BA • Vereinigungsmenge: AB = {x|xAxB} • Schnittmenge: AB = {x|xAxB} • Komplement, Differenz: A =  \ A {x|xxA} • Kommutativität, Assoziativität, Distributivität • De Morgan: AB = AB, AB = AB • A sei eine Menge. Potenzmenge: Menge aller Teilmengen X={x|xA} • Menge aller Mengen • Menge aller Mengen die sich nicht selbst enthalten (Russell) • Russell: Typentheorie. Zermelo-Fraenkel-Mengenlehre. Gödel.

A AB B Mengenlehre II • kartesisches Produkt: AB = {(a,b)|aAbB} • ABC, AAA = A3 • binäre Relation: RAB. Statt (a,b)R schreibe aRb.Beispiel: K = {(a,b)|(a,b)NNa<b} • reflexiv  a: aRa • symmetrisch  a,b: (aRb  bRa) • transitiv  a,b,c: (aRb  bRc  aRc) • äquivalent: RAA reflexiv, symmetrisch, und transitiv. a~b • Äquivalenzklasse: KA, K, aKbK  a~b, aKa~b  bKSchreibweise: {xA|x~a} = [a]K=[a], K'=[b]  K=K'  KK'= 

Mengenlehre III • Zerlegung: Sei A eine Menge, und ~ eine Äquivalenzrelation auf A.Dann heißt die Menge A/~ aller Äquivalenzklassen von A bzgl. ~ die von ~ induzierte Zerlegung. • K,LA/~ KL  KL= • Vereinigungsmenge aller Elemente von A/~ • Definition von ~ über eine Zerlegung • Zerlegung eines Hypothesenraums für die Hypothesenprüfung nach Bayes

Mengelehre IV • Eine binäre Relation f auf AB heißt eine Abbildung,wenn gilt • f ist linkstotal: aA bB sodaß (a,b)f. • f ist rechtseindeutig: (a,b)f  (a,c)f  b=c • A: Definitionsbereich, B: Wertebereich von f. • alternativer Name: Funktion. • Schreibweisen: (a,b)f, afb, b=f(a), f: AB, • MA, NB : f(M)=N heißt „Bild von M“, f–1(N)=M „Urbild von N“ • surjektiv: bB aA sodaß (a,b)f. rechtstotal. bitotal. • injektiv: (a,c)f  (b,c)f  a=b. linkseindeutig. eineindeutig. • bijektiv: surjektiv und injektiv. • Sei f bijektiv. Dann ist auch die „Umkehrabbildung“ f –1 bijektiv. • endlich, unendlich; abzählbar, überabzählbar

Mengenlehre und Logik • Verwandtschaft von Mengenlehre und Logik •   A •   A • Hausaufgaben (unter anderem): • überprüfen, welche Gesetze der Mengelehregenauso in der Logik gelten. • vertraut machen mit Wahrheitstafeln! , , , , 

Zufallsexperimente • Ergebnis nicht mit Sicherheit vorhersagbar,Menge aller möglichen Ergebnisse bekannt.„Ergebnisraum“  = {1, 2, 3, ...} • Beispiel: Detektionsexperiment • Ergebnisraum:  = {+,} • Beispiel: Stellung von Ehepaaren zu Geschwindigkeitsbegrenzung auf Autobahnen • Ergebnisraum:  = {0,1,2} (Zahl der Ja-Antworten) • Ergebnisraum:  = {(J,J),(J,N),(N,J),(N,N)} • Ergebnisraum hängt • von der Struktur des Experimentes • und von der Fragestellung ab

Ereignisse • Teilmenge A des Ergebnisraums  ist ein „Ereignis“. • Ergebnis i (direkt) beobachtbar: Ausgang des Experiments • Ereignis = wahrscheinlichkeitstheoretisches Konzept:„Ereignis tritt ein / wird (indirekt) beobachtet “ = Ergebnis  Ereignis • Beispiel: E = „Ehepaar antwortet gleich“ •  = {0,1,2}: E = {0,2} •  = {(J,J),(J,N),(N,J),(N,N)}: E = {(J,J),(N,N)} • Elementarereignis: Ereignis mit nur einem Element, {i} • Ergebnisraum und leere Menge sind Ereignisse • Operationen auf Ereignissen: Vereinigung, Schnittmenge, Komplement

Wahrscheinlichkeiten von Ereignissen für endliche oder abzählbare(„diskrete“) Ergebnisräume: • Wahrscheinlichkeit:P: Potenzmenge()  R so daß • P({i})  0, • P({1}) + P({2}) + P({3}) + .... = 1. • P(A) = AP({}) • keine weitere Annahmen über P({i}),insbesondere nicht gleichwahrscheinlich • Problem bei überabzählbaren Mengen

-Algebra • Axiomatische Definition nach Kolmogorov: Sei  ein Ergebnisraum, und S eine Menge von Teilmengen von ,dann heißt S eine -Algebra in , wenn gilt •   S • A  S  A S • A1, A2, A3...  S  A1 A2 A3...  S • S ist abgeschlossen bzgl. Komplement, ,  • S kann abzählbar sein, auch wenn  überabzählbar ist.

Wahrscheinlichkeitsraum • Sei  ein Ergebnisraum und S eine -Algebra in .Dann ist die Abbildung P: S  R eine Wahrscheinlichkeit, wenn gilt: • P(A)  0 für alle AS, • P() = 1, • -Additivität: A1, A2, A3...  S , paarweise disjunkt P(A1 A2 A3...) = P(A1) + P(A2) + P(A3) +... • Übungen: , P(A), AB

Bedingte Wahrscheinlichkeit • Seien A und B Ereignisse, mit P(B)>0.Dann wird die bedingte Wahrscheinlichkeit, daß A eintritt „gegeben B“, definiert als: P(A|B)  P(AB)/P(B) • Beispiel: ein Säckchen enthalte weiße und schwarze Spielsteine aus Holz und aus Plastik: 40 weiße aus Holz, 10 weiße aus Plastik,30 schwarze aus Holz, 20 schwarze aus Plastik. Ich ziehe einen Stein. Wie groß ist P(w|H), p(H|w), p(H), p(w), ... • P(AB) = P(A|B)  P(B) = P(B|A)  P(A)

Stochastische Unabhängigkeit • A und B sind stochastisch unabhängig, wenn gilt: P(A|B) = P(A) • Fragen: P(B|A) = ? P(AB) = ? P(A|B) = ? • Beispiel: A tritt nach B ein. A ist unabhängig von B, wenn das erste „Teilergebnis“ (aus B oder aus B) keinen Einfluß auf die Wahrscheinlichkeit für das Auftreten von A hat. • Zwei Ereignisse seien disjunkt. Beide haben eine Wahrscheinlichkeit größer Null.Können sie unabhängig sein?

Unabhängige Familien • Sei C eine Menge von Ereignissen.C heißt Familie unabhängiger Ereignisse, wenn für alle endlichen Teilmengen von C gilt:P(A1A2A3...) = P(A1)  P(A2)  P(A3) ... • Reicht paarweise Unabhängigkeit aller Elemente für die Unabhängigkeit der Familie?

Bayes • Sei {B1, B2, ...} eine Zerlegung von .(paarweise disjunkt, Vereinigung aller Bi = ).Dann gilt: • Beispiel: Bi (unbeobachtbare) Hypothesen, A (beobachtbare) Versuchsergebnisse,P(A|Bi) bekannt („Voraussagen“), P(Bi) a priori Wahrscheinlichkeiten für Hypothesen,P(Bi|A) a posteriori Wahrscheinlichkeiten der Hypothesen.

0 d‘ e 0 k 2 Beispiel: Entscheidungstheorie • Jeder Stimulus löst eine interne Repräsentation aus, die sich durch einen eindimensionalen Parameter e beschreiben läßt. • e ist Gauß-verteilt , mit  = 1 und µ = 0 (Rauschen) bzw. µ = d‘ (Signal). • Bei Ja/Nein-Aufgaben setzt die VP ein Kriterium k und sagt „Ja“ wenn e > k. • P (S | e) ist eine monotone Funktion von e: Ein Kriterium in e ist gleichzeitig ein Kriterium in P (S | e). „Nein“ „Ja“

Bedingte Unabhängigkeit • Sei  ein Ergebnisraum, S eine -Algebra in ,P eine Wahrscheinlichkeit auf S, und C ein Ereignis.Dann ist auch PC: S  R mit PC(A) = P(A|C)eine Wahrscheinlichkeit auf S. • Zwei Ereignisse A und B heißen „bedingt unabhängig bezüglich C“, wenn sie bezüglich PC unabhängig sind:PC(A|B) = PC(A).PC(AB) = PC(A)  PC(B)P(AB|C) = P(A|C)  P(B|C)

Zufallsvariablen • Warum brauchen wir Zufallsvariablen? • Mit Mengen kann man nicht „rechnen“ (+,,...). • Abbildung von  auf R bzw. R = R  {,} • reelle Zufallsvariablen • Abbildung von  auf abzählbare Menge bzw. N • diskrete Zufallsvariablen

Reelle Zufallsvariablen • Sei  ein Ergebnisraum, S eine -Algebra in ,P eine Wahrscheinlichkeit auf S.X:   (R bzw.) R heißt (reelle) Zufallsvariablegenau dann wenn xR: {|X()x}  S • S = {,}, X ? • Das Urbild jedes Intervalls (,x] ist ein Ereignis.(S-Meßbarkeit von X). • Dies ermöglicht die Übertragung der Wahrscheinlichkeit P von der -Algebra S auf den Wertebereich von X.

Verteilungsfunktion • Definition der Verteilungsfunktion F(x) = P({|X()x}) = P(Xx) • monoton steigend (warum?) • F(), F(+) • Gibt es für die reelle Zufallsvariable X:   Reine nichtnegative Funktion f: R  R mit F(x) = xf(y) dy,dann ist f die Wahrscheinlichkeitsdichte von X. • P(axb) = abf(y) dy • f(y) dy = ???

Diskrete Zufallsvariablen • Sei  ein Ergebnisraum, S eine -Algebra in ,P eine Wahrscheinlichkeit auf S.X:   E (E abzählbar)heißt diskretes Zufallselement.Zusätzlich ER: X ist diskrete Zufallsvariable. • Definition der Wahrscheinlichkeitsfunktion p(x) = P({|X()=x}) = P(X=x) • BE: P(B) = xBp(x). • Zufallsvariable X: Verteilungsfunktion F(x) = P(Xx) = yxp(y). • AS: Indikatorfunktion 1A() = 1 wenn A, 0 sonst.

Unabhängige Zufallsvariablen • Reelle Zufallsvariablen X1, X2, ... sindstochastisch unabhängig, wenn für alle x1, x2, ... R gilt: P(X1x1, X2x2, ...) = P(X1x1)  P(X2x2)  ... • Wenn alle Xi Dichten besitzen, gilt F(x1,x2,...) = x1f1(y1) dy1x2f2(y2) dy2  ... = x1x2...f1(y1) f2(y2) dy1 dy2 ... Wahrscheinlichkeitsdichte f(x1,x2,...) = f1(x1)  f2(x2)  ...

Zufallsstichprobe • Folge von Zufallsexperimenten in einer Population • Jedes Element der Population hat die gleiche Wahrscheinlichkeit, beobachtet zu werden. • einzelne Beobachtung: Ergebnis  und X() registrieren. • Die einzelnen Beobachtungen müssen stochastisch unabhängig sein. • Folge Xi stochastisch unabhängiger und identisch verteilter (P(Xix)=F(x)) Zufallsvariablen.

Modus, Median, Quantile • Sei X eine reelle Zufallsvariable mit Verteilungsfunktion F(x) und Wahrscheinlichkeitsdichte f(x). • Modus: f(xm) hat ein (lokales?) Maximum • -Quantil: F(x) =  • Median: 0,5-Quantil • Sei X eine diskrete Zufallsvariable mit Wahrscheinlichkeitsfunktion p(x) und Verteilungsfunktion F(x). • Modus: p(xm) ist maximal • -Quantil: P(Xx)    P(Xx)  1–

Erwartungswert, Varianz • Sei X eine reelle Zufallsvariable mit Wahrscheinlichkeitsdichte f(x). • Erwartungswert: E(X) =  xf(x) dx • Varianz: V(X) = ²(X) = E ( (X–E (X))² ) = E (X²) – E (X)² • Standardabweichung (X) (positive Wurzel von V(X)) • Sei X eine diskrete Zufallsvariable mit Wahrscheinlichkeitsfunktion p(x). • Erwartungswert: E (X) = xX() xp(x) • Varianz und Standardabweichung wie oben

Rechenregeln mit E und V • Zufallsvariable „a“ sei konstant: E (a) = a. • E ist linear: E (aX + bY) = a E (X) + b E (Y) • Zufallsvariable „a“ sei konstant: V(a) = 0. • V(X+a) = V(X) • V(aX) = a²V(X)

Vorhersage • Seien X und Y zwei Zufallsvariablen. • Wie genau erlaubt die Kenntnis von X, den Wert von Y vorherzusagen, und welcher Wert wäre das?Vorhergesagter Wert Y' = F (X) • Vereinfachung: Existiert ein linearer Zusammenhang? Y' = a + b X Y' = a + b X + e

Linearität • Fast jeder Zusammenhang ist • lokal linear • global nichtlinear

Y Y' = a + b X ei X Das lineare Modell • Y' = a + b X • Y' = a + b X + e • e = Y – Y' • E (e) = 0 • Ziel: E (e²) minimieren • E (Y) = a + b E (X) • Achsabschnitt a = E (Y) – b E (X) • Steigung b = ???

Varianz und Kovarianz • V(X) = VXX = E ( (X–E (X))² ) • V(Y) = VYY = E ( (Y–E (Y))² ) • V(X,Y) = VXY = E ( (X–E (X))(Y–E (Y)) ) • VYX = VXY = E (X·Y) – E (X) E (Y) • Vxy ist positiv, wenn positive Abweichungen in X mit positiven Abweichungen in Y einhergehen, und negative mit negativen. • Vxy ist negativ, wenn... • Vxy ist Null, wenn...

z-transformierte Zufallsvariablen • Y = a + b X + e • E(Y) = a + b E (X) • Wenn X und Y z-transformiert sind,wenn also gilt: E (X) = E (Y) = 0und VXX = VYY = 1,dann gilt für die Regressionsgerade: Achsabschnitt a = 0 und Steigung b = VXY = E (X·Y)

X' = (1/b) Y X X' = b Y Y Y' = b X ei ei Y X Vertauschung von X und Y • Wenn man bei z-transformierten Zufallsvariablen X und Y vertauscht, bleibt die Steigung der Regressionsgerade gleich... Koordinaten-ursprung

Korrelationskoeffizient und Steigung • Steigung bY·X= VXY / VXX • Steigung bX·Y = VXY / VYY 1 / bY·X = VXX / VXY • rXY = VXY / (VXX  VYY) • bY·X = rXY  (VYY/VXX) = rXY SY/SX • bX·Y = rXY  (VXX/VYY) = rXY SX/SY • rXY² = VXY² / (VXX  VYY) • E (e²) = VYY  ( 1 – rXY² ) = ( 1 – rXY² ) für z-transformierte Daten

Rechenregeln mit Kovarianz • V(aX + bY) = a²VXX + b²VYY + 2abVXY • V(i=1...nXi) = i=1...nj=1...nVXiXj • VX+Y,Z = VXZ + VYZ • Sind X und Y stochastisch unabhängig, dann gilt • E (X·Y) = E (X) E (Y) • VXY = 0 • Z=X+Y: VZZ = VX + VY • Z=X–Y: VZZ =

Wahrscheinlichkeitstheorie