TCPII

TCPII Beslissen normatief

Waarom beslissen? Het nemen van beslissingen is een belangrijk onderdeel van de wetenschap (moet ik dit “als waar” aannemen?) Het levert modellen voor die bruikbaar zijn in onderzoek in het algemeen, waarnemen, diagnostiek en (uiteraard) beslissen Psychologen worden voornamelijk ingezet om beslissingen te nemen, voor te bereiden, te verbeteren, te ondersteunen en te legitimeren

Modellen voor beslissen Normatief Prescriptief Descriptief Filosofen, Wiskundigen TCP-ers! Bestuurders, Instructeurs, Commandanten, TCP-ers! Psychologen, Economen(?) N. B.: normatieve modellen kunnen ook descriptief worden gebruikt of uitgangspunt vormen voor descriptieve modellen!

Veronderstel dat het gedrag aan een normatief model voldoet (voor adaptieve of geadapteerde systemen een redelijke aanname) Beschrijf het gedrag in termen van de parameters van dat model Signaaldetectie Bayesiaanse modellen voor perceptie standaard ineconomie! (vgl “begrijpen” in psychologie!) Werkt soms goed, maar vaak is afwijking te groot

Opfrisser: Wat is een verstandige manier om te beslissen? Klassiek beslissingscriterium voor onzekere situatie (b.v. gokken): kies alternatief met hoogste verwachte waarde (E V) Cf. Pascal’s Weddenschap (kansrekening ontstond in context van gokken en theologie)

Christiaan Huygens formuleerde het principe expliciet in 1657: By exempel. So yemandt sonder mijn weeten in déene handt 3 schellingen verbergt en in d'ander 7 schellingen ende my te kiesen geeft welck van beyde ick begeere te hebben, ick segge dit my even veel weerdt te zijn als of ick 5 schellingen seecker hadde. EV(A) = (p(u)V(u)) u∊A

Hemel Gedoe Hel Plezier p 1-p Geloven Niet geloven p 1-p Pascal’s Weddenschap in moderne termen: kans dat God bestaat = p p•() + (1-p)•GG  p•(- ) + (1-p)•PlNg -  EV(A) = (p(u)V(u)) u∊A Dus: zelfs bij kleine p is geloven redelijk!

D. Bernouilli (1738): Waarde van geld niet voor iedereen hetzelfde: rijken vs armen Utiliteit (“emolumentum”) ipv geldswaarde EU(A) = (p(u)U(u)) u∊A Maar hoe kom je aan een maat van utiliteit? Bernoulli: Utiliteit van toename (of afname) omgekeerd evenredig met wat je al hebt !

AB beginkapitaal CG utiliteit van toename BC DH utiliteit van toename BD… PO utiliteit van winst BP po negatieve utiliteit van verlies pB (PO=po ; AN=aN) Hoe krijg je curve BGHLMS ? Als toename in geld CD heel klein is (dx), is toename in utiliteit rH (dy) daarmee evenredig: dy ~ dx Utiliteit van toename (of afname) omgekeerd evenredig met wat je al hebt (AC=x): dy ~ 1/x dy = bdx/x ; dy/dx = b/x (b constant)

dy = bdx/x ; dy/dx = b/x y = k ln(x) + C (als x>0 geldt 1/x dx = ln(x) + C) ∫ NB. Fechner gebruikte dezelfde redenering om zijn logaritmische wet uit de Weberwet af te leiden!

Maar wat als je geen “objectieve” maat hebt zoals geld of fysische grootheid? Af te leiden uit voorkeuren (met p(A) = 1) Schaaleigenschappen, Consistentie Bv: Als A > B dan A&C > B&C Utiliteit functie multipele atributen (MAUT)

pz opereren 1-pz pz niet opereren 1-pz EV(A) = (p(u)V(u)) u∊A En wat is kans? Weet ik die kans dan? Soms weet ik B (testuitslag) en ken ik p(B|u) (uit de statistieken) • Benaderingen: • Bayes • Neyman-Pearson, SDT

Recap Bayes’ Rule Pierre Simon Laplace

Als een test .99 van de patienten detecteert die aan ziekte Z lijden (dit is erg hoog voor een medische test!)…, en mijn testresultaat blijkt positief… …hoe waarschijnlijk is het dan dat ik Z heb?

Vraag1 1: hoe prevalent is Z? Stel: 1 patient op de 1000 Vraag 2: Hoe veel false alarms? . Stel: 2 op de 100 gezonde mensen die worden getest. (Heel goede test! Veel beter dan PSA- niveau voor prostaatkanker en mammogram voor borstkanker!!!)

Kans op Z gegeven een positief testresultaat: .047 Valt reuze mee!!!!!!!!! We hebben een principe nodig om te komen van kans op positief gegeven Z op kans op Z gegeven positief Of algemeen: van p(A|B) naar p(B|A)

De odds vorm is heel aardig om te laten zien wat er gebeurt als je nieuwe informatie krijgt: p(A|B) p(B|A) p(A) ------------- = ------------- • -------- p(¬A|B) p(B|¬A) p(¬A) Nieuw geloof in A, nu je B weet (posterior odds) Diagnostische “kwaliteit” van nieuwe informatie B (likelihood ratio) Oorspronkelijke geloof in A (prior odds)

Opnieuw het ziektevoorbeeld: 99% van zieken positief [p(Pos|Z)] 2% van gezonden positief [p(Pos|¬Z)] 0.1% zieken [p(Z)] p(Pos|Z)•p(Z) p(Z|Pos) = ----------------------------------------- p(Pos|Z)•p(Z) + (Pos|¬Z)•p(¬Z) .99 • .001 .00099 = ----------------------------- = ------------ = .047 99 •.001 + .02 •.999 .020079

In de odds vorm: p(A|B) p(B|A) p(A) ------------- = ------------- • -------- p(¬A|B) p(B|¬A) p(¬A) .0495 (nog steeds lage) posterior odds .99 ----- .02 (hoge) diagnostische waarde (49.5) .001 ------ .999 (lage) prior odds

Graf van Bayes

Problemen: Wat is kans? (verschillende antwoorden: - (limiet van) relatieve frequentie - maat voor sterkte van geloof/overtuiging Kun je zeggen dat een unieke gebeurtenis of de toestand op dit moment (dat ik nu Z heb) een kans p heeft? A-priori kansen vaak niet goed gefundeerd- gevaar van willekeur

Vanaf ca. 1925 werd de Bayesiaanse aanpak in de inductive statistiek gemarginaliseerd (nu een come back) In de “klassieke ” statistiek prefereert men een frequentistische interpretatie van waarschijnlijkheid Hypothesen zijn waar of niet waar (al weten we doorgaans niet wat), en worden geaccepteerd of verworpen op grond van D and p(D|H)

Inductieve statistiek Bayesiaans vs klassiek kans: sterkte van overtuiging, gebaseerd op alle beschikbare a-priori en actuele evidentie θ (b.v. populatiegemiddelde) stochastisch Inferentie gebaseerd op likelihood: p(data|θ) en prior: p(θ) kans: limiet van lange termijn relative frequentie Vaste, onbekende parameters θ (b.v. populatiegemiddelde Inferentie gebaseerd op likelihood: p(data|θ)

Sx bereken p(S|H0) (voor steekproegrootte n) p Steekproefgrootheid S Fisher Nulhypothese over een of andere population parameter doe experiment ( Sx, p) Verwerp H0 als p klein is, je zou een of ander alternatief kunnen accepteren

Neyman & Pearson p(S|H0) p(S|H1) Steekproefgrootheid S Specificeer H0 ,H1 en kansverdelingen. Formuleer op grond van β p(type II error) en α p(type I error) een criterium, doe experiment, bepaal Sx en kies tussen H0 en H1

Signaal-Detectie Theorie Toepassing Neyman-Pearsonop verwerken sonar- of radarsignalen tegen ruizige (noisy) achtergrond Ontwikkeld voor militaire technologie (WW2):

Hypothese 0: er is geen signaal, alleen maar ruis Hypothese 1: er is een signaal en ruis NB.1 Op basis van “evidentie” moet ik handelen, al weet ik niet welke H echt waar is! NB.2 Dit is typisch “klassiek”, maar straks komt Bayes via de achterdeur toch weer binnen!

kernaannamen signaaldetectietheorie kansdichtheid “Evidentie”, b.v…..???? 1. Effect van signaal is variabel (volgens kansverdeling). 2. Ruis (Noise) heeft ook variabel effect. Probleem: is de “evidentie” (= een punt op de x-as) van signaal (+ ruis) of van ruis alleen afkomstig?

“No” “Yes” 3. Als signaal zwak is, overlappen verdelingen en zijn fouten onvermijdelijk, welk kriterium ook wordt gehanteerd

Terminologie: “No” “Yes” “No” “Yes” Signaal (+ruis) (alleen) ruis miss hit correct rejection false alarm

Hoe sterker het signaal (of hoe beter de detector) … hoe verder de verdelingen uit elkaar liggen

“No” “Yes” Gegeveneen bepaalde gevoeligheid kunnen verschillende responscriteria gehanteerd worden Afhankelijke van persoonlijke voorkeur of “pay off” in deze situatie: -Hoe erg is een misser, hoe belangrijk is een hit? -Hoe erg is een false alarm, hoe belangrijk is een correct rejection? -Hoe vaak komen signalen voor? (denk aan Bayes!)

Twee typen toepassingen: 1. Normatief: Men kent de kansverdelingen en probeert een zo goed mogelijk criterium te bepalen voor optimaal gedrag • -Heb ik deze mevrouw eerder gezien? • Is dat een vijandelijk vliegtuig? • Wijst dit mammogram op borstkanker? • Zit er een wapen in die koffer? • Kan deze leerling naar de HAVO? • Wat is de beste cut-off score voor deze test?

Twee typen toepassingen: 2. Descriptief: Men kent het gedrag en probeert de kansverdelingen en het criterium als “rationeel” model te reconstrueren Hoe goed/slecht zien ppn een lichflits? Hoezeer zijn ze geneigd die te rapporteren? Hoe goed is deze pp in herkennen van gezichten? Hoe goed kunnen rechters schuldigen van onschuldigen onderscheiden? Zijn rechters beter en/of strenger dan leken? Hoe goed kunnen röntgenologen borstkanker diagnostiseren? Hoe goed is deze test? .

“No” “Yes” In een experiment met ruis- en signaal trials: Een strict (“hoog”) criterium resulteert in weinig hits maar ook weinig false alarms Propor-tie hits (van signaal trials) Proportie false alarms (van noise trials)

“No” “Yes” hits Een laks “laag” criterium levert bij gelijke gevoeligheid meer hits op, maar ook meer false alarms false alarms

De ROC-(response operating characteristic) curve ….verbindt punten in een Hit/FA- plot, afkomstig van verschillende criteria bij dezelfde gevoeligheid ROC-curve karakteriseert signaal/detector onafhankelijke van criterium belangrijk: gevoeligheid en criterium theoretisch onafhankelijk

ROC-curve hits Zelfde gevoeligheid (voor dit signaal), verschillende criteria false alarms

Grotere gevoeligheid: ROC-curve verder van diagonaal (Perfectie zou zijn: allemaal hits en geen false alarms) hits false alarms

Suggereert twee soorten maten voor gevoeligheid (onafhankelijk van criterium:) –gegeven een empirisch bepaalde ROC curve): • Afstand tussen signaal- en ruisverdeling • (vgl d' ) 2. Oppervlakte onder ROC-Curve: A

Geen onderscheid tussen signaal en ruis: A = .50

Perfect onderscheid tussen signaal en ruis: A 1.

Typen maten voor criterium: 1. Plaats op x-as h f 2. Likelihood ratio p(xc|S)/p(xc|N) = h/f (vgl β) 3. Plaats in ROC-plot (l.o. vs r.b.) 4. Helling raaklijn aan ROC

Borstkanker? d' = 1.13

PSA-indices voor het screenen op prostaatkanker

Psychodiagnostiek: 1. Hoe goed is deze test in het onderscheiden van relevante categorieën? 2. Wat is een goede cut-off score (bij welke score moet ik de kandidaat aannemen/ de student toelaten/ de cliënt naar de psychiater of het gekkenhuis sturen?

Comer & Kendall 2005: Children’s Depression Inventory ontdekt depressie in een steekproef van angstige and angstige + depressieve kinderen Verschillende cut-off scores

TCPII

TCPII

Presentation Transcript

TCPII

TCPII